Campionamento stratificato: un’introduzione con esempi

Se sei mai stato in spiaggia, in particolare sulle spiagge della costa sud-orientale degli Stati Uniti, potresti avere familiarità con la terrificante sensazione di vedere qualcosa di globulare e ondeggiante in un’onda che si avvicina rapidamente durante il tuo tuffo nell’oceano. Le meduse pervadono le acque locali, e doppiamente durante i mesi in cui è meglio nuotare nell’oceano. Vai a creatura senza cervello, questo sembra certamente ben coordinato per il massimo disagio. Oltre ad essere poco più che pezzi di melma galleggiante, alcune specie di meduse vantano anche pungiglioni e un sottoinsieme di queste specie può produrre punture potenzialmente pericolose per la vita.

La maggior parte delle punture, sebbene, per quanto spiacevoli, non sono pericolose per la vita. Per questo motivo non sono registrati come statistiche mediche. Quindi, se i ricercatori volessero raccogliere informazioni su quanta parte della popolazione statunitense è stata punto dalle meduse, l’opzione migliore sarebbe quella di chiedere a un campione di persone ed estrapolare i risultati a livello di popolazione.

In questo caso, tuttavia, se i ricercatori esaminassero le persone a livello nazionale e aggregassero semplicemente i loro risultati, tali risultati sarebbero fuorvianti. La maggior parte degli Stati Uniti è senza sbocco sul mare. Il rilevamento di individui in stati senza costa implica intrinsecamente una diversa probabilità di essere punti da una medusa rispetto agli individui che vivono vicino a una spiaggia. Un’indagine casuale a livello nazionale sugli americani tenderebbe a rappresentare in modo eccessivo gli individui con maggiori probabilità di non essere mai punto.

Che cos’è il campionamento stratificato?

Il campionamento stratificato è un metodo di raccolta dei dati che stratifica un grande gruppo ai fini del rilevamento. Stratificare significa suddividere una popolazione in una raccolta di gruppi non sovrapposti lungo una metrica. Gli individui all’interno di questi sottogruppi – o “strati” – possono quindi essere intervistati in modo casuale. I ricercatori quindi aggregano i risultati dell’indagine relativi a ciascun sottogruppo con pesi statistici basati sulle informazioni utilizzate dai ricercatori per suddividere i singoli strati.

Altro da Edward HearnData ordinale rispetto alla data nominale: qual è la differenza?

Che cos’è il campionamento stratificato?

In situazioni come questa, la stratificazione produce stime più nitide e precise rispetto ad altri metodi. Stratificare significa suddividere una popolazione in una raccolta di gruppi non sovrapposti lungo una metrica. Gli individui all’interno di questi sottogruppi – o “strati” – possono quindi essere intervistati in modo casuale. Infine, i ricercatori aggregano i risultati dell’indagine relativi a ciascun sottogruppo con pesi statistici costruiti dalle informazioni utilizzate dai ricercatori per suddividere i singoli strati.

Prendi, ad esempio, gli sfortunati ricercatori che hanno dimenticato di adattare il loro sondaggio sulle punture di meduse alle parti specifiche degli Stati Uniti che hanno maggiori probabilità di contenere meduse (al di fuori di un acquario). Una potenziale opzione che questi ricercatori potrebbero utilizzare per stratificare la loro popolazione nazionale è per stato, e quindi pesare la loro proporzione aggregata di punture in tutto lo stato in base a quante miglia di costa ha ciascuno stato. In questo modo aumenterebbe le risposte delle persone alla domanda “Sei mai stato punto da una medusa?” se vivono in stati vicino ai quali è più probabile che risiedano anche le meduse.

Questo esempio presuppone, ovviamente, che gli individui che sono stati punti da una medusa e risiedono in Nebraska, diciamo, siano stati punti in Nebraska. Un risultato del genere è improbabile, tuttavia, a meno che la persona in questione non sia stata estremamente sfortunata o non sia stata portata a nuotare attraverso le vasche dell’acquario. Chiaramente, la stratificazione non è immune da cattive ipotesi!

Campionamento stratificato: un esempio

Un’altra illustrazione della stratificazione che potenzialmente parla a una fascia più ampia della popolazione degli Stati Uniti riguarda un altro tipo di parassita, questo più vicino a casa. Lo riporta l’US Census Bureau 15 milioni di famiglie americane hanno riferito di aver visto roditori nelle loro abitazioni l’anno scorso. Ratti e topi, anche se probabilmente più adorabili delle pungenti gelatine di mare, sono gli ospiti non invitati più familiari degli americani. Ma quanti roditori ci sono in una data casa? È difficile da dire, dato che i roditori in genere evitano di far conoscere la loro presenza ai proprietari di case. Il campionamento stratificato può aiutare a risolvere questo dilemma.

A partire dal 2020, la dimensione media delle case degli Stati Uniti è di 2.261 piedi quadrati. Supponiamo che una casa di 2.400 piedi quadrati appena sopra la mediana abbia cinque stanze, ciascuna con un’area di piedi quadrati diversa. I topi possono essere in una qualsiasi di queste stanze. I proprietari di casa vogliono sapere quanti topi totali ci sono in casa. Quindi, acquistano trappole da posizionare in ciascuna delle cinque stanze per determinare la probabile dimensione totale della loro infestazione di topi. Poiché le stanze più grandi offrono sia più spazio in cui vivere per i topi, ma anche più spazio in cui i topi possono eludere le trappole, i proprietari di casa decidono di stratificare l’area totale della loro casa in base alle dimensioni della stanza.

La tabella seguente contiene informazioni sulle dimensioni delle stanze, insieme ai risultati del “sondaggio” delle trappole (va sottolineato che questi proprietari stanno campionando roditori senza sostituirli, a causa della letalità della cattura).

Una tabella che mostra i dati sulla presenza di roditori nelle abitazioni
Tavolo creato dall’autore.

I proprietari di casa, nella fretta di valutare l’entità della loro infestazione da roditori, prendono rapidamente una media delle cinque proporzioni: (1/5)(1/2) + (1/5)(1/3) + (1/5 )(1/3) + (1/5)(2/2) + (1/5)(0/2) = 13/30 o circa il 43 percento delle trappole occupate. Moltiplicando questa proporzione per il totale delle trappole impostate si ottiene una dimensione totale stimata della popolazione di ratti in tutte le stanze: (.43)(12) = 5,2 ratti.

“Ma aspetta”, dice uno dei proprietari di casa, “non abbiamo detto che le stanze più grandi hanno meno probabilità di avere trappole occupate? Non dovremmo tenerne conto ponderando la nostra stima in base alle dimensioni della stanza?” Gli altri proprietari di casa sono d’accordo. Ricalcolano la loro stima, questa volta ponderando in base alle proporzioni delle stanze rispetto alle dimensioni totali della casa: (200/2.400)(1/2) + (600/2.400)(1/3) + (800/2.400)(1 ) /3) + (400/2.400)(2/2) + (400/2.400)(0/2) = 40 percento delle trappole occupate. Ciò si traduce in una stima della popolazione di ratti di (.40)(12) = 4,8 ratti.

Questi totali stimati sembrano vicini, ma non sono così vicini come sembrano inizialmente. Una discrepanza di mezzo topo potrebbe non fare molta differenza per una casa di 2.400 piedi quadrati, ma immagina di stimare i topi totali in diversi magazzini o una flotta di navi da crociera o un grande sistema ospedaliero. In questi casi, il totale stimato potrebbe essere di decine o centinaia di topi semplicemente perché i ricercatori non hanno tenuto conto delle informazioni rilevanti a livello di sottopopolazione.

Comprendi il nostro mondo basato sui datiChe cos’è il data warehouse? Comprendere l’importanza delle strutture e dell’architettura dei dati.

Quando dovresti usare il campionamento stratificato?

Quindi, quando i ricercatori dovrebbero impiegare la stratificazione nel loro processo di campionamento? Nella seconda edizione del suo libro di testo, Campionamento: Progettazione e Analisila statistica Sharon Lohr elenca quattro ragioni principali per la stratificazione.

4 motivi per il campionamento stratificato

  1. Per evitare di prelevare un campione errato.
  2. La conoscenza dei sottogruppi migliora la precisione della stima.
  3. La stratificazione rende la ricerca più facile ed economica.
  4. La stratificazione riduce il rumore in un campione.

In primo luogo, i ricercatori dovrebbero stratificare quando vogliono proteggersi dal prelevare un campione orribile. Come afferma Lohr, quando si prende un campione casuale semplice (cioè prelevando un campione di tutti in una popolazione senza tener conto dei sottogruppi) di dimensione 100 da una popolazione di 2.000 maschi e femmine divisi equamente, è possibile che il campione casuale semplice non includa o pochi membri di un sesso. La conoscenza della ripartizione proporzionale tra i sessi in questa popolazione fa sì che i ricercatori campionano casualmente 50 maschi e 50 femmine. La stratificazione per sesso preclude un campione non rappresentativo composto da nessuno o da pochi membri di uno dei sessi (l’occhio attento noterà che i proprietari di casa posizionano le loro trappole in questo modo: le stanze più grandi hanno più trappole delle stanze più piccole).

La conoscenza dei sottogruppi può migliorare la precisione delle stime, che è il secondo motivo addotto da Lohr a favore della stratificazione. Nel loro lavoro del 1992 sulle carriere di genere e ingegneristiche, Judith Samsom McIlwee e J. Gregg Robinson ha cercato di misurare i risultati sul posto di lavoro per i laureati in ingegneria meccanica ed elettrica maschi e femmine. All’epoca gli autori campionavano i laureati in ingegneria, tuttavia, in questi campi c’erano molti più uomini che donne. McIlwee e Robinson hanno utilizzato queste informazioni per sovracampionare (campionando il gruppo sottorappresentato più del gruppo sovrarappresentato) per garantire che la precisione dei risultati stimati fosse la stessa tra i sessi. Senza la stratificazione e il sovracampionamento, i risultati stimati per le donne ingegneri sarebbero stati più incerti delle stime per le loro controparti maschili.

Un terzo motivo per impiegare le tecniche di stratificazione è che potrebbero rendere il rilevamento più facile o meno costoso. I ricercatori possono personalizzare i tipi di indagine in base ai sottogruppi per ridurre i costi amministrativi. Ad esempio, i sondaggi basati su Internet sono più convenienti per le grandi aziende rispetto ai tradizionali screening telefonici o alle visite in loco. I ricercatori potrebbero quindi concentrare maggiori sforzi sul contattare le piccole imprese tramite telefono o visite per raccogliere informazioni. Entrambe queste tecniche sono più costose del rilevamento basato su Internet, ma possono catturare meglio gli strati sottorappresentati. Mirando a sottogruppi specifici sottorappresentati, la stratificazione può comportare una maggiore precisione allo stesso costo di indagini casuali semplici e più grandi o la stessa precisione a costi inferiori.

Ciò porta direttamente all’ultimo motivo per cui i ricercatori potrebbero prendere in considerazione la stratificazione: spesso fornisce stime meno rumorose delle medie e dei totali della popolazione. È quasi sempre il caso che i membri dello stesso sottogruppo di una popolazione siano più simili di un campione casuale di membri di tutti i sottogruppi. Tenendo conto di queste somiglianze all’interno dello strato e quindi mettendo in comune le informazioni tra gli strati, in genere si ottengono stime con errori standard inferiori rispetto al rilevamento casuale di un numero identico di individui a livello di popolazione.

La conoscenza di come costruire strati può iniettare più informazioni sulle risposte individuali in misure aggregate rispetto al semplice rilevamento casuale. Pertanto, identificare correttamente gli strati appropriati è un metodo a basso costo con cui migliorare le stime statistiche delle popolazioni. Supponendo che i ricercatori scelgano strati che contengono anche piccole quantità di informazioni rilevanti relative a tutti i membri dei sottogruppi della popolazione, la stratificazione si rivela uno strumento cruciale per affinare la stima empirica e, quindi, produrre inferenze più accurate; è molto più miele per un po’ più di puntura.

.

Leave a Comment

Your email address will not be published. Required fields are marked *