Campionamento
- Testo
- Bibliografia10
- Video1
- Voci correlate
Autori: M. Britto Berchmans, Alessandra Rimano
Negli ultimi anni i sondaggi politici sono diventati così frequenti che i media vengono spesso accusati di offrire una copertura delle elezioni come si trattasse di una corsa di cavalli, mentre temi scottanti della campagna elettorale restano in ombra. Armati di sondaggi, tutti affermano di sapere cosa pensano gli altri. Ma come si fa ad avere un’idea chiara e precisa della coscienza collettiva di un Paese? Dal momento che tutti ne conveniamo è impossibile chiedere a ogni singola persona cosa pensi, per avere un’idea di una caratteristica o di un atteggiamento che possa valere per tutta la popolazione, occorre intervistare un campione ‘attentamente selezionato’. Questo principio, ampiamente impiegato nelle scienze sociali nello sviluppo della teoria scientifica, è basato su un altro semplice assioma: il principio di generalizzazione.
Ciò vale anche nell’ambito della ricerca scientifica, salvo il fatto che la generalizzazione, in questi casi, per essere accettata deve rispettare determinati criteri. Chiamiamo inferenza statistica il complesso di tecniche statistiche che consentono in base ai risultati relativi a un gruppo di osservazioni o a degli esperimenti di trarre conclusioni la cui validità, per un collettivo più ampio, si esprime in termini probabilistici. Infatti il campo di osservazione delle scienze sociali è spesso molto ampio e, generalmente, fuori della portata dei ricercatori; occorre quindi delimitare tale campo di osservazione ricorrendo a criteri adeguati ed esplicitati.
I vantaggi di questo modo di procedere sono evidenti, primo fra tutti quello di garantirci un’efficacia tale da risparmiare nella ricerca tempo, denaro ed energie. Nel caso di un’inchiesta, ad esempio, non è necessario studiare la popolazione nella sua totalità, è sufficiente rivolgere le domande a poche persone opportunamente scelte. D’altro canto non ci sono reali alternative. Supponiamo di possedere una fabbrica di automobili e di dovere gestire un controllo sulla qualità del nostro prodotto. Se non potessimo ricorrere al principio di generalizzazione, dovremmo fare dei test severi su tutte le macchine per assicurarci che nel produrle sono stati rispettati gli standard di sicurezza richiesti dalla legge. Ma se agissimo in questo modo, finiremmo col danneggiarle tutte e praticamente non ne avremmo più da vendere. Utilizzando invece un procedimento inferenziale, riusciamo ad avere una valutazione globale della produzione, pur sottoponendo a test solo alcune macchine scelte a caso. La generalizzazione però ci pone di fronte a un problema non piccolo: il grado di rappresentatività del campione (il gruppo di macchine sottoposto a test). Per far sì che l’inferenza sia sufficientemente legittima occorre assicurarsi e garantire che le caratteristiche della popolazione oggetto di studio siano presenti allo stesso modo nei soggetti concretamente studiati. In altri termini, la rappresentatività di un campione è la sua capacità di riprodurre, quanto più possibile, le caratteristiche dell’universo statistico da cui è tratto. Non stiamo sostenendo che un campione è senz’altro rappresentativo: ci si aspetta però che lo sia, pertanto deve essere scelto in maniera tale da consentirci di generalizzare le conclusioni elaborate a suo riguardo.
Gli errori di selezione dipendono dalle scelte del ricercatore; si verificano tutte le volte che egli esclude dal campione alcune componenti in modo sistematico, cosicché dei soggetti o loro determinate caratteristiche non saranno rappresentati.
Gli errori di risposta sono introdotti invece dalle unità o dai soggetti che compongono il campione; si verificano quando i casi scelti si autoescludono sistematicamente dalla partecipazione alla ricerca (in gergo tecnico queste defezioni vengono definite cadute). Se le cadute riguardano proprio una specifica categoria di unità statistiche, il campione non sarà più rappresentativo della popolazione, ma conterrà un errore sistematico.
È necessario dunque prendere delle misure particolari per ridurre il rischio di incorrere in errori di c. Molto spesso però, pur avendo scelto con cura il campione, non si riesce a evitare distorsioni nelle risposte per il semplice motivo che non possiamo costringere le persone a partecipare a una ricerca; se i partecipanti si autoescludono, ci ritroviamo con un campione viziato. (In questi casi bisogna anche riflettere sull’intera impostazione delle ricerche che, ricordiamolo, hanno come fondamentale criterio, la fattibilità).
Esiste comunque tutta una serie di strategie che possono aiutare sia a individuare le distorsioni sia a compensarle in qualche modo. Per esempio, possiamo aumentare preventivamente le dimensioni delle sezioni del campione che temiamo possano, a un certo punto, rifiutarsi di partecipare. Oppure possiamo dare maggior peso alle loro risposte in modo da compensare la loro ridotta presenza nel campione.
Le rilevazioni campionarie sono, per loro stessa natura, affette da errori (d’altronde anche le rilevazioni totali lo sarebbero). La rappresentatività, che consente di estendere all’intero universo i risultati ottenuti indagando il campione, dipende:
dal criterio di c. utilizzato (v. più avanti);
dall’ampiezza del campione, che deve essere sufficiente in rapporto alla numerosità N dell’universo. Si parla di frazione di c. per indicare il rapporto tra la numerosità campionaria (n) e la dimensione della popolazione (N) e di errore di c. in riferimento alla percentuale di errore che si è disposti a tollerare: quanto più piccolo è l’errore ammesso, tanto più ampio dovrà essere il campione. La determinazione dell’ampiezza del campione dipende quindi dalla numerosità dell’universo e dall’errore di c. ammesso; fra i due, però, è l’errore di c. a incidere maggiormente sulla consistenza del campione. Infatti per una stessa dimensione dell’universo l’ampiezza del campione aumenta notevolmente riducendo il margine di errore; mentre, per uno stesso margine di errore, all’aumentare della numerosità N corrisponde un incremento di n (ampiezza del campione) addirittura decrescente. Le procedure per il calcolo dell’ampiezza sono piuttosto complesse, ma esistono tabelle che aiutano notevolmente nella determinazione del campione. Facciamo un esempio: per una numerosità N dell’universo uguale a 1500 unità, l’ampiezza n del campione sarà di 235 unità con un errore del 6% e di ben 1305 unità con un errore del 1%, mentre, con lo stesso margine di errore del 3% e un aumento dell’universo N da 50.000 a 100.000 unità, il campione passa da 1.087 a 1.099, aumentando di sole 11 unità! Questo ci aiuta a comprendere perché anche in ricerche che hanno come riferimento l’intera popolazione nazionale si consideri rappresentativo un campione con un’ampiezza relativamente limitata:
dalla variabilità della popolazione, i risultati sono tanto più rappresentativi quanto minore è la variabilità della popolazione;
da aspetti accidentali.
A questo punto è utile definire alcuni termini chiave:
unità di analisi: è l’elemento o l’unità su cui vengono raccolte informazioni;
popolazione o universo statistico: è l’insieme N, l’oggetto di studio teoricamente specificato che comprende un certo numero di elementi aventi alcune caratteristiche in comune;
campione è un sottoinsieme dell’universo, costituito da un numero n di unità, con n
unità di campione è il singolo soggetto o elemento preso in considerazione nel corso del c.; nel caso del c. a grappolo (v. più avanti) è un insieme di elementi; possiamo avere unità di campione primarie, secondarie e finali;
lista di c. (sampling frame): è l’elenco o lista di tutte le unità di campione da cui viene concretamente estratto il campione;
variabile: è un attributo o un insieme di attributi delle unità di campione (ad esempio, possono essere considerate variabili il sesso, l’età, la professione e l’etnia); per definizione, una variabile deve poter variare, ovvero assumere stati diversi.
Dal punto di vista teorico dovremmo sempre scegliere i campioni in modo casuale; nel concreto delle cose poi intervengono molti fattori (costi, tempo, disponibilità di liste di c., ecc.) con cui si devono fare i conti prima di arrivare a un campione accettabile.
Le numerose tecniche di c. possono essere sinteticamente raggruppate, sempre in base al criterio della probabilità nota, in: i campioni probabilistici propriamente detti, i campioni a probabilità parziale, i campioni non probabilistici.
3.1. I campioni probabilistici.
I campioni probabilistici maggiormente utilizzati nella ricerca sociale sono i campioni casuali semplici e i campioni casuali stratificati. Tutti i campioni casuali richiedono, per poter essere estratti, che sia disponibile un elenco dei casi che costituiscono l’universo, ciascuno affiancato da un numero d’ordine, denominato lista di c. Ciò comporta che la lista debba essere completa e tratta da fonti attendibili, per poter estrarre un campione effettivamente rappresentativo.
a) Il campione casuale semplice: si tratta dello standard di riferimento, rispetto al quale vengono valutati tutti gli altri metodi di selezione del campione. Nel campione casuale semplice trovano applicazione concreta e meticolosa tutti i principi fondamentali del processo di c. casuale. La selezione viene lasciata al caso e, come abbiamo detto, ogni singola unità gode delle medesime probabilità di venire inclusa nel campione.
Quando è disponibile la lista di c. (come si è detto, la lista completa di tutti i componenti della popolazione), dall’elenco il ricercatore può selezionare le unità del campione in maniera del tutto casuale. Le principali tecniche di estrazione del campione sono: il sorteggio (estrazione da un’urna per effettivo sorteggio di palline) se N è relativamente piccolo; le tavole dei numeri aleatori (ad es. le tavole di Fisher); i numeri pseudo aleatori generati dal computer.
Se dopo ogni estrazione l’unità estratta viene reinserita nella totalità delle unità da sorteggiare si ha il campione con ripetizione o bernoulliano (eventi indipendenti), altrimenti si ha un campione senza ripetizione che può essere in blocco (se le unità sono estratte insieme) oppure esaustivo (se si tiene conto anche dell’ordine di estrazione). Questo tipo di campione generalmente non presenta distorsioni (ciò non toglie, però, che si debba fare di tutto per prevenire un possibile errore di risposta). È molto semplice da creare quando la popolazione è piccola e quando si ha a disposizione una lista di c. Un tipico esempio di campione a probabilità semplice è quello che si può trarre dalla popolazione studentesca quando si hanno a disposizione gli elenchi delle immatricolazioni.
b) Il campione stratificato: viene usato per ottenere un alto grado di rappresentatività, riducendo nello stesso tempo il rischio di incorrere in distorsioni. Quando si vuole ridurre l’errore di c. si deve tenere conto di due principi: 1) quando il campione diventa più grande, l’errore di c. si riduce; 2) il campione di una popolazione omogenea presenta meno errori di c. di quanto non capiti al campione di una popolazione eterogenea.
Nel costruire il c. stratificato ci si basa sul secondo principio appena enunciato: piuttosto che selezionare il campione con unità scelte direttamente dalla popolazione totale, si divide questa in sotto-sezioni omogenee, a partire dalle quali si compone il campione. La funzione ultima della stratificazione è dunque di organizzare la popolazione in gruppi omogenei al loro interno (ma eterogenei tra di loro), per scegliere poi da questi stessi gruppi il numero appropriato di elementi. Il presupposto di base di questo processo è il seguente: se le sotto-sezioni sono omogenee quanto alle variabili utilizzate per decidere la stratificazione, ci si può aspettare che lo siano anche nelle altre variabili. Spesso la scelta delle variabili di stratificazione viene fatta tra quelle immediatamente disponibili; si dovrebbe invece tenere conto prima di tutto di quelle che sono presumibilmente legate alle variabili di cui si vuole avere una rappresentazione accurata e considerate rilevanti ai fini della ricerca.
I metodi di c. basati sulla stratificazione possono essere molto diversi tra loro. Due sono i metodi più utilizzati: il c. stratificato proporzionale e il c. stratificato non proporzionale. Il primo consiste nel ripartire gli elementi della popolazione in gruppi discreti, ordinati secondo certe variabili di stratificazione. Dal momento che un dato gruppo rappresenta una certa parte della popolazione, si selezionano all’interno del gruppo in modo casuale, ramdom un numero tale di elementi da ottenere la stessa proporzione rispetto alla dimensione del campione. Con il secondo metodo si ottengono invece strati che rappresentano nel campione una proporzione diversa da quella che rappresentano nella popolazione di riferimento; vi si ricorre in casi in cui è necessario sovracampionare alcune caratteristiche che altrimenti sarebbero troppo poco rappresentate.
Questi metodi di c. sono particolarmente indicati quando si dispone di informazioni dettagliate sulle caratteristiche della popolazione. Vengono impiegati per esempio nei sondaggi politici, in cui le proporzioni di appartenenza ai vari partiti sono note dalle liste elettorali. Tuttavia può portare a un notevole aumento dei costi nella raccolta dei dati.
3.2. I campioni a probabilità parziale.
Questa procedura di c. può essere adottata quando non è possibile selezionare un campione a probabilità reale. In genere produce risultati che si avvicinano molto a quelli di un campione casuale semplice, anche se può incorrere un certo livello di distorsione.
Il campione casuale sistematico: si parte dal presupposto che qualsiasi procedura di scelta sistematica, che cominci con una scelta casuale, produce un campione molto vicino a un vero campione casuale. Questo procedimento può essere adottato quando la popolazione è così grande che ci vuole un tempo esagerato per contarne tutte le unità, oppure quando è necessaria una selezione in più fasi. Pur essendo un criterio semplice e rapido è applicabile solo se si è certi che la successione dei casi nella lista di c. è rigorosamente casuale. Non va dimenticato però che questa tecnica non procede in maniera interamente casuale. Il criterio consiste nell’estrarre un caso ogni k a partire da un elemento della lista scelto casualmente, dove k è una costante data dal rapporto tra N (ampiezza dell’universo) e n (ampiezza del campione) Facciamo un esempio. Supponiamo di avere una lista di 10.000 elementi (N) e di voler generare un campione di 1.000 (n), così che il gruppo degli intervistati rispetto alla popolazione sia in rapporto di 1 a 10 (k). Si procede selezionando un soggetto ogni dieci e, per garantire che non vi siano condizionamenti di sorta, il primo elemento viene scelto a caso. Questo è un c. sistematico con inizio casuale. L’intervallo di c. è la ‘distanza’ standard che intercorre tra gli elementi selezionati per il campione (nel nostro esempio è pari a 10); la proporzione di c. è la proporzione tra gli elementi selezionati e la popolazione.
Il campione a più stadi: quando la popolazione è molto grande e non si dispone di una lista completa, si può adottare il metodo del c. a più stadi. In questo caso prima si campionano gruppi di elementi e poi selezionano degli elementi all’interno di ciascun gruppo. Anche se non si dispone di una lista completa si possono sempre creare liste di sub-popolazioni. Consideriamo, per esempio, i membri appartenenti negli USA a diverse chiese o denominazioni. È possibile procurarsi una lista sia delle chiese sia dei rispettivi fedeli. Partendo dalla lista delle chiese ne otteniamo un campione (usando il metodo del c. stratificato o quello sistematico); e quindi dalla lista dei membri delle chiese selezionate estraiamo il campione del nostro studio. In modo simile possiamo campionare la popolazione di una città dividendola in quartieri, scegliendo poi gli elementi del campione nei quartieri selezionati.
Per evitare di incorrere in errori di c. si deve massimizzare il numero dei gruppi prescelti e minimizzare il numero degli elementi scelti all’interno di ciascun gruppo. Vanno anche tenuti sotto controllo i tempi e i costi di realizzazione del c. Questa procedura permette di ridurre la complessità del c. di popolazioni di grandi dimensioni. Per esempio, i network televisivi e i giornali impiegano questa tecnica per studiare le reazioni dell’audience durante i dibattiti delle campagne elettorali.
3.3. I campioni non probabilistici.
In teoria dovremmo evitare il più possibile di ricorrere a questo tipo di campione in quanto le conclusioni che esso permette di formulare sono generalizzabili a tutta la popolazione solo a delle condizioni ben definite: è l’accuratezza di queste premesse che dà validità o meno alle conclusioni raggiunte. In realtà sono molte le ricerche (come quelle riguardanti i campus universitari e il settore del marketing) che utilizzano campioni non probabilistici. Si possono distinguere diversi tipi.
a) Il campione per quote: equivale al c. stratificato, dal quale però si differenzia per la modalità non casuale ma accidentale di selezione dei casi per ciascuna quota. In genere sono i ricercatori stessi che individuano i casi corrispondenti alle variabili considerate rilevanti. Anche i c. per quote possono essere proporzionali o non proporzionali.
b) Il campione ‘a valanga’: il procedimento si articola in più fasi; inizialmente viene raggiunto un certo numero di unità con determinate caratteristiche stabilite dal ricercatore, da queste si traggono informazioni per raggiungere altri casi con quelle stesse caratteristiche, da questo secondo gruppo, più ampio del primo, si contattano altri casi ancora, e così via in proporzione sempre maggiore rispetto alle unità di partenza, sino al raggiungimento del quorum inizialmente stabilito quale ampiezza del campione.
c) Il campione di convenienza: come il nome stesso suggerisce, in questo campione le unità vengono scelte secondo un criterio di convenienza ovvero si selezionano le unità che sono immediatamente disponibili. È definito anche campione accidentale o opportunistico. Tra i campioni di convenienza più frequenti ricordiamo quelli costruiti a partire dai comuni passanti o con i frequentatori dei grandi magazzini, o ancora i gruppi precostituiti o fortuiti. Nel caso dei campioni precostituiti si ricorre a gruppi di elementi già formati (una classe di studenti, ad esempio) per rappresentare una popolazione più ampia. In numerose ricerche condotte nelle università sono le nuove matricole che costituiscono i campioni, proprio perché sono i soggetti più immediatamente disponibili. Si può usare il tipo di generalizzazione derivante da campioni non probabilistici, solo se il campione non differisce dalla popolazione in nessuna caratteristica ritenuta determinante per il risultato finale della ricerca.
d) Il campione a grappoli (cluster sample): questa procedura è simile al campione a più stadi, in quanto parte da una popolazione assai grande da cui seleziona casualmente un campione iniziale di unità aggregate (grappoli di unità) come Stati, città, o quartieri e poi considera tutte le unità dei grappoli scelti. In questo caso però la selezione finale del campione non avviene in maniera casuale, infatti ciascuna unità aggregata selezionata dalla popolazione è comunque inclusa nel campione finale. In alcuni casi il c. a grappoli è assolutamente necessario, in quanto non si potrebbe risolvere in altro modo il problema del c. Per esempio, se il compito è esaminare uno stock di casse di bottiglie, piuttosto che prendere una bottiglia da ogni cassa, rovinando così tutte le casse, si estraggono casualmente alcune casse e se ne esamina tutto il contenuto. Questo tipo di c., solitamente adottato per prodotti commerciali, a volte è utilizzato anche in altri campi: se un ricercatore vuole studiare l’atteggiamento che i cattolici praticanti negli USA hanno nei riguardi delle autorità ecclesiastiche, egli potrà scegliere un campione casuale di dieci chiese tratto dall’universo di tutte le chiese di uno Stato, e quindi inviare dei questionari a tutti i fedeli praticanti di quelle dieci chiese.
Si potrebbe però obiettare che i risultati non possono essere senz’altro generalizzati, perché facendo riferimento al secondo esempio non è detto che quello Stato sia rappresentativo degli altri Stati del Paese; inoltre, restringendo a dieci chiese la scelta tra grandi gruppi di cattolici, si può accentuare le peculiarità di quelle stesse chiese.
Malgrado tali difficoltà, questo tipo di campione rende la ricerca economicamente conveniente perché la rilevazione di dati riguardanti unità vicine è più agevole e non occorre l’elenco di tutte le unità della popolazione, ma soltanto di quelle dei grappoli.
1) Le dimensioni della popolazione. Se la popolazione è vasta, anche il campione deve essere vasto. Se vogliamo fare uno studio sui sacerdoti del Burundi che studiano a Roma possiamo anche creare un campione piccolo, ma se vogliamo fare uno studio sugli africani che vivono in Italia il campione dovrà essere più vasto. Dell’importanza della dimensione dell’universo nella determinazione dell’ampiezza del campione e come quest’ultima sia fortemente correlata al livello di fiducia scelto, abbiamo già parlato (vedi 2).
2) Le risorse disponibili e i limiti di tempo. Spesso sono questi fattori a decidere le dimensioni del campione, soprattutto quando si vuole crearne uno veramente casuale.
3) L’incisività dell’effetto. Se l’effetto studiato è ampio e forte, un piccolo campione può anche bastare, altrimenti dobbiamo ricorrere a campioni più vasti.
4) Il numero dei sotto-gruppi da confrontare. Se il campione deve essere diviso in sotto-gruppi e se si devono esaminare le variabili dipendenti, può essere necessario avere campioni piuttosto grandi per far sì che vi siano sufficienti unità in ciascun sotto-gruppo.
5) I tassi di rifiuto e di mortalità. Un campione deve anche tenere conto dei dati che possono risultare non utilizzabili. In previsione del fatto che il tasso di risposta possa essere basso o che il questionario non venga compilato correttamente da una certa percentuale di intervistati (per le ragioni più varie), deve essere presa in seria considerazione l’eventualità di aumentare preventivamente le dimensioni del campione.
La ragione principale per cui si ricorre a un campione è che esso ci permette di fare delle previsioni senza dover censire tutta la popolazione. L’uso di un campione però comporta inevitabilmente il rischio di incorrere in un qualche tipo di distorsione, per evitare il quale non basta aumentare le dimensioni del campione (con un corrispondente aumento dei costi). In ogni ricerca c’è un punto determinato oltre il quale l’aumento delle dimensioni del campione non riduce necessariamente, e in maniera significativa, l’errore di c. Il campione migliore nasce quindi dal compromesso tra i costi aggiuntivi che si devono affrontare per includere altre unità nel campione e la riduzione dell’errore di c. che se ne ottiene.
1. Dalla ‘generalizzazione’ all’inferenza statistica
La generalizzazione è una forma di ragionamento che usiamo frequentemente nella vita quotidiana. Ad esempio, quando prepariamo un piatto di spaghetti, per sapere se sono cotti al dente, non li assaggiamo tutti ma uno soltanto. Allo stesso modo, dopo un paio di esperienze negative con un nostro vicino, siamo in grado di generalizzare e concludere che dobbiamo stargli alla larga. La correttezza o meno di questa conclusione dipenderà dal modo in cui abbiamo selezionato il nostro campione di esperienze. Quel che è certo è che da un insieme limitato di esperienze possiamo trarre delle generalizzazioni.Ciò vale anche nell’ambito della ricerca scientifica, salvo il fatto che la generalizzazione, in questi casi, per essere accettata deve rispettare determinati criteri. Chiamiamo inferenza statistica il complesso di tecniche statistiche che consentono in base ai risultati relativi a un gruppo di osservazioni o a degli esperimenti di trarre conclusioni la cui validità, per un collettivo più ampio, si esprime in termini probabilistici. Infatti il campo di osservazione delle scienze sociali è spesso molto ampio e, generalmente, fuori della portata dei ricercatori; occorre quindi delimitare tale campo di osservazione ricorrendo a criteri adeguati ed esplicitati.
I vantaggi di questo modo di procedere sono evidenti, primo fra tutti quello di garantirci un’efficacia tale da risparmiare nella ricerca tempo, denaro ed energie. Nel caso di un’inchiesta, ad esempio, non è necessario studiare la popolazione nella sua totalità, è sufficiente rivolgere le domande a poche persone opportunamente scelte. D’altro canto non ci sono reali alternative. Supponiamo di possedere una fabbrica di automobili e di dovere gestire un controllo sulla qualità del nostro prodotto. Se non potessimo ricorrere al principio di generalizzazione, dovremmo fare dei test severi su tutte le macchine per assicurarci che nel produrle sono stati rispettati gli standard di sicurezza richiesti dalla legge. Ma se agissimo in questo modo, finiremmo col danneggiarle tutte e praticamente non ne avremmo più da vendere. Utilizzando invece un procedimento inferenziale, riusciamo ad avere una valutazione globale della produzione, pur sottoponendo a test solo alcune macchine scelte a caso. La generalizzazione però ci pone di fronte a un problema non piccolo: il grado di rappresentatività del campione (il gruppo di macchine sottoposto a test). Per far sì che l’inferenza sia sufficientemente legittima occorre assicurarsi e garantire che le caratteristiche della popolazione oggetto di studio siano presenti allo stesso modo nei soggetti concretamente studiati. In altri termini, la rappresentatività di un campione è la sua capacità di riprodurre, quanto più possibile, le caratteristiche dell’universo statistico da cui è tratto. Non stiamo sostenendo che un campione è senz’altro rappresentativo: ci si aspetta però che lo sia, pertanto deve essere scelto in maniera tale da consentirci di generalizzare le conclusioni elaborate a suo riguardo.
2. Le distorsioni e gli errori nella scelta del campione
Un campione non è rappresentativo quando è in qualche modo distorto. Le principali cause di distorsione possono essere ricondotte al ricercatore (errori di selezione) oppure agli stessi rispondenti o unità osservate (errori di risposta).Gli errori di selezione dipendono dalle scelte del ricercatore; si verificano tutte le volte che egli esclude dal campione alcune componenti in modo sistematico, cosicché dei soggetti o loro determinate caratteristiche non saranno rappresentati.
Gli errori di risposta sono introdotti invece dalle unità o dai soggetti che compongono il campione; si verificano quando i casi scelti si autoescludono sistematicamente dalla partecipazione alla ricerca (in gergo tecnico queste defezioni vengono definite cadute). Se le cadute riguardano proprio una specifica categoria di unità statistiche, il campione non sarà più rappresentativo della popolazione, ma conterrà un errore sistematico.
È necessario dunque prendere delle misure particolari per ridurre il rischio di incorrere in errori di c. Molto spesso però, pur avendo scelto con cura il campione, non si riesce a evitare distorsioni nelle risposte per il semplice motivo che non possiamo costringere le persone a partecipare a una ricerca; se i partecipanti si autoescludono, ci ritroviamo con un campione viziato. (In questi casi bisogna anche riflettere sull’intera impostazione delle ricerche che, ricordiamolo, hanno come fondamentale criterio, la fattibilità).
Esiste comunque tutta una serie di strategie che possono aiutare sia a individuare le distorsioni sia a compensarle in qualche modo. Per esempio, possiamo aumentare preventivamente le dimensioni delle sezioni del campione che temiamo possano, a un certo punto, rifiutarsi di partecipare. Oppure possiamo dare maggior peso alle loro risposte in modo da compensare la loro ridotta presenza nel campione.
Le rilevazioni campionarie sono, per loro stessa natura, affette da errori (d’altronde anche le rilevazioni totali lo sarebbero). La rappresentatività, che consente di estendere all’intero universo i risultati ottenuti indagando il campione, dipende:
dal criterio di c. utilizzato (v. più avanti);
dall’ampiezza del campione, che deve essere sufficiente in rapporto alla numerosità N dell’universo. Si parla di frazione di c. per indicare il rapporto tra la numerosità campionaria (n) e la dimensione della popolazione (N) e di errore di c. in riferimento alla percentuale di errore che si è disposti a tollerare: quanto più piccolo è l’errore ammesso, tanto più ampio dovrà essere il campione. La determinazione dell’ampiezza del campione dipende quindi dalla numerosità dell’universo e dall’errore di c. ammesso; fra i due, però, è l’errore di c. a incidere maggiormente sulla consistenza del campione. Infatti per una stessa dimensione dell’universo l’ampiezza del campione aumenta notevolmente riducendo il margine di errore; mentre, per uno stesso margine di errore, all’aumentare della numerosità N corrisponde un incremento di n (ampiezza del campione) addirittura decrescente. Le procedure per il calcolo dell’ampiezza sono piuttosto complesse, ma esistono tabelle che aiutano notevolmente nella determinazione del campione. Facciamo un esempio: per una numerosità N dell’universo uguale a 1500 unità, l’ampiezza n del campione sarà di 235 unità con un errore del 6% e di ben 1305 unità con un errore del 1%, mentre, con lo stesso margine di errore del 3% e un aumento dell’universo N da 50.000 a 100.000 unità, il campione passa da 1.087 a 1.099, aumentando di sole 11 unità! Questo ci aiuta a comprendere perché anche in ricerche che hanno come riferimento l’intera popolazione nazionale si consideri rappresentativo un campione con un’ampiezza relativamente limitata:
dalla variabilità della popolazione, i risultati sono tanto più rappresentativi quanto minore è la variabilità della popolazione;
da aspetti accidentali.
A questo punto è utile definire alcuni termini chiave:
unità di analisi: è l’elemento o l’unità su cui vengono raccolte informazioni;
popolazione o universo statistico: è l’insieme N, l’oggetto di studio teoricamente specificato che comprende un certo numero di elementi aventi alcune caratteristiche in comune;
campione è un sottoinsieme dell’universo, costituito da un numero n di unità, con n
lista di c. (sampling frame): è l’elenco o lista di tutte le unità di campione da cui viene concretamente estratto il campione;
variabile: è un attributo o un insieme di attributi delle unità di campione (ad esempio, possono essere considerate variabili il sesso, l’età, la professione e l’etnia); per definizione, una variabile deve poter variare, ovvero assumere stati diversi.
3. Le tecniche di c.
In riferimento ai possibili criteri di selezione di un campione possiamo distinguere due tipi più generali di campioni, che si differenziano per la possibilità di determinare o meno la probabilità che ogni elemento costitutivo dell’universo ha di entrare a far parte del campione. Se tale probabilità è nota abbiamo i campioni probabilistici o casuali, se non lo è abbiamo i campioni non probabilistici o non casuali. Nella consapevolezza che nessun campione è perfettamente corrispondente all’universo di riferimento, i campioni probabilistici sono i soli a essere considerati statisticamente significativi; solo per essi infatti le differenze fra campione e universo possono essere imputate al caso, e lo scostamento dell’uno dall’altro può essere stimato sulla base dell’errore di c.Dal punto di vista teorico dovremmo sempre scegliere i campioni in modo casuale; nel concreto delle cose poi intervengono molti fattori (costi, tempo, disponibilità di liste di c., ecc.) con cui si devono fare i conti prima di arrivare a un campione accettabile.
Le numerose tecniche di c. possono essere sinteticamente raggruppate, sempre in base al criterio della probabilità nota, in: i campioni probabilistici propriamente detti, i campioni a probabilità parziale, i campioni non probabilistici.
3.1. I campioni probabilistici.
I campioni probabilistici maggiormente utilizzati nella ricerca sociale sono i campioni casuali semplici e i campioni casuali stratificati. Tutti i campioni casuali richiedono, per poter essere estratti, che sia disponibile un elenco dei casi che costituiscono l’universo, ciascuno affiancato da un numero d’ordine, denominato lista di c. Ciò comporta che la lista debba essere completa e tratta da fonti attendibili, per poter estrarre un campione effettivamente rappresentativo.
a) Il campione casuale semplice: si tratta dello standard di riferimento, rispetto al quale vengono valutati tutti gli altri metodi di selezione del campione. Nel campione casuale semplice trovano applicazione concreta e meticolosa tutti i principi fondamentali del processo di c. casuale. La selezione viene lasciata al caso e, come abbiamo detto, ogni singola unità gode delle medesime probabilità di venire inclusa nel campione.
Quando è disponibile la lista di c. (come si è detto, la lista completa di tutti i componenti della popolazione), dall’elenco il ricercatore può selezionare le unità del campione in maniera del tutto casuale. Le principali tecniche di estrazione del campione sono: il sorteggio (estrazione da un’urna per effettivo sorteggio di palline) se N è relativamente piccolo; le tavole dei numeri aleatori (ad es. le tavole di Fisher); i numeri pseudo aleatori generati dal computer.
Se dopo ogni estrazione l’unità estratta viene reinserita nella totalità delle unità da sorteggiare si ha il campione con ripetizione o bernoulliano (eventi indipendenti), altrimenti si ha un campione senza ripetizione che può essere in blocco (se le unità sono estratte insieme) oppure esaustivo (se si tiene conto anche dell’ordine di estrazione). Questo tipo di campione generalmente non presenta distorsioni (ciò non toglie, però, che si debba fare di tutto per prevenire un possibile errore di risposta). È molto semplice da creare quando la popolazione è piccola e quando si ha a disposizione una lista di c. Un tipico esempio di campione a probabilità semplice è quello che si può trarre dalla popolazione studentesca quando si hanno a disposizione gli elenchi delle immatricolazioni.
b) Il campione stratificato: viene usato per ottenere un alto grado di rappresentatività, riducendo nello stesso tempo il rischio di incorrere in distorsioni. Quando si vuole ridurre l’errore di c. si deve tenere conto di due principi: 1) quando il campione diventa più grande, l’errore di c. si riduce; 2) il campione di una popolazione omogenea presenta meno errori di c. di quanto non capiti al campione di una popolazione eterogenea.
Nel costruire il c. stratificato ci si basa sul secondo principio appena enunciato: piuttosto che selezionare il campione con unità scelte direttamente dalla popolazione totale, si divide questa in sotto-sezioni omogenee, a partire dalle quali si compone il campione. La funzione ultima della stratificazione è dunque di organizzare la popolazione in gruppi omogenei al loro interno (ma eterogenei tra di loro), per scegliere poi da questi stessi gruppi il numero appropriato di elementi. Il presupposto di base di questo processo è il seguente: se le sotto-sezioni sono omogenee quanto alle variabili utilizzate per decidere la stratificazione, ci si può aspettare che lo siano anche nelle altre variabili. Spesso la scelta delle variabili di stratificazione viene fatta tra quelle immediatamente disponibili; si dovrebbe invece tenere conto prima di tutto di quelle che sono presumibilmente legate alle variabili di cui si vuole avere una rappresentazione accurata e considerate rilevanti ai fini della ricerca.
I metodi di c. basati sulla stratificazione possono essere molto diversi tra loro. Due sono i metodi più utilizzati: il c. stratificato proporzionale e il c. stratificato non proporzionale. Il primo consiste nel ripartire gli elementi della popolazione in gruppi discreti, ordinati secondo certe variabili di stratificazione. Dal momento che un dato gruppo rappresenta una certa parte della popolazione, si selezionano all’interno del gruppo in modo casuale, ramdom un numero tale di elementi da ottenere la stessa proporzione rispetto alla dimensione del campione. Con il secondo metodo si ottengono invece strati che rappresentano nel campione una proporzione diversa da quella che rappresentano nella popolazione di riferimento; vi si ricorre in casi in cui è necessario sovracampionare alcune caratteristiche che altrimenti sarebbero troppo poco rappresentate.
Questi metodi di c. sono particolarmente indicati quando si dispone di informazioni dettagliate sulle caratteristiche della popolazione. Vengono impiegati per esempio nei sondaggi politici, in cui le proporzioni di appartenenza ai vari partiti sono note dalle liste elettorali. Tuttavia può portare a un notevole aumento dei costi nella raccolta dei dati.
3.2. I campioni a probabilità parziale.
Questa procedura di c. può essere adottata quando non è possibile selezionare un campione a probabilità reale. In genere produce risultati che si avvicinano molto a quelli di un campione casuale semplice, anche se può incorrere un certo livello di distorsione.
Il campione casuale sistematico: si parte dal presupposto che qualsiasi procedura di scelta sistematica, che cominci con una scelta casuale, produce un campione molto vicino a un vero campione casuale. Questo procedimento può essere adottato quando la popolazione è così grande che ci vuole un tempo esagerato per contarne tutte le unità, oppure quando è necessaria una selezione in più fasi. Pur essendo un criterio semplice e rapido è applicabile solo se si è certi che la successione dei casi nella lista di c. è rigorosamente casuale. Non va dimenticato però che questa tecnica non procede in maniera interamente casuale. Il criterio consiste nell’estrarre un caso ogni k a partire da un elemento della lista scelto casualmente, dove k è una costante data dal rapporto tra N (ampiezza dell’universo) e n (ampiezza del campione) Facciamo un esempio. Supponiamo di avere una lista di 10.000 elementi (N) e di voler generare un campione di 1.000 (n), così che il gruppo degli intervistati rispetto alla popolazione sia in rapporto di 1 a 10 (k). Si procede selezionando un soggetto ogni dieci e, per garantire che non vi siano condizionamenti di sorta, il primo elemento viene scelto a caso. Questo è un c. sistematico con inizio casuale. L’intervallo di c. è la ‘distanza’ standard che intercorre tra gli elementi selezionati per il campione (nel nostro esempio è pari a 10); la proporzione di c. è la proporzione tra gli elementi selezionati e la popolazione.
Il campione a più stadi: quando la popolazione è molto grande e non si dispone di una lista completa, si può adottare il metodo del c. a più stadi. In questo caso prima si campionano gruppi di elementi e poi selezionano degli elementi all’interno di ciascun gruppo. Anche se non si dispone di una lista completa si possono sempre creare liste di sub-popolazioni. Consideriamo, per esempio, i membri appartenenti negli USA a diverse chiese o denominazioni. È possibile procurarsi una lista sia delle chiese sia dei rispettivi fedeli. Partendo dalla lista delle chiese ne otteniamo un campione (usando il metodo del c. stratificato o quello sistematico); e quindi dalla lista dei membri delle chiese selezionate estraiamo il campione del nostro studio. In modo simile possiamo campionare la popolazione di una città dividendola in quartieri, scegliendo poi gli elementi del campione nei quartieri selezionati.
Per evitare di incorrere in errori di c. si deve massimizzare il numero dei gruppi prescelti e minimizzare il numero degli elementi scelti all’interno di ciascun gruppo. Vanno anche tenuti sotto controllo i tempi e i costi di realizzazione del c. Questa procedura permette di ridurre la complessità del c. di popolazioni di grandi dimensioni. Per esempio, i network televisivi e i giornali impiegano questa tecnica per studiare le reazioni dell’audience durante i dibattiti delle campagne elettorali.
3.3. I campioni non probabilistici.
In teoria dovremmo evitare il più possibile di ricorrere a questo tipo di campione in quanto le conclusioni che esso permette di formulare sono generalizzabili a tutta la popolazione solo a delle condizioni ben definite: è l’accuratezza di queste premesse che dà validità o meno alle conclusioni raggiunte. In realtà sono molte le ricerche (come quelle riguardanti i campus universitari e il settore del marketing) che utilizzano campioni non probabilistici. Si possono distinguere diversi tipi.
a) Il campione per quote: equivale al c. stratificato, dal quale però si differenzia per la modalità non casuale ma accidentale di selezione dei casi per ciascuna quota. In genere sono i ricercatori stessi che individuano i casi corrispondenti alle variabili considerate rilevanti. Anche i c. per quote possono essere proporzionali o non proporzionali.
b) Il campione ‘a valanga’: il procedimento si articola in più fasi; inizialmente viene raggiunto un certo numero di unità con determinate caratteristiche stabilite dal ricercatore, da queste si traggono informazioni per raggiungere altri casi con quelle stesse caratteristiche, da questo secondo gruppo, più ampio del primo, si contattano altri casi ancora, e così via in proporzione sempre maggiore rispetto alle unità di partenza, sino al raggiungimento del quorum inizialmente stabilito quale ampiezza del campione.
c) Il campione di convenienza: come il nome stesso suggerisce, in questo campione le unità vengono scelte secondo un criterio di convenienza ovvero si selezionano le unità che sono immediatamente disponibili. È definito anche campione accidentale o opportunistico. Tra i campioni di convenienza più frequenti ricordiamo quelli costruiti a partire dai comuni passanti o con i frequentatori dei grandi magazzini, o ancora i gruppi precostituiti o fortuiti. Nel caso dei campioni precostituiti si ricorre a gruppi di elementi già formati (una classe di studenti, ad esempio) per rappresentare una popolazione più ampia. In numerose ricerche condotte nelle università sono le nuove matricole che costituiscono i campioni, proprio perché sono i soggetti più immediatamente disponibili. Si può usare il tipo di generalizzazione derivante da campioni non probabilistici, solo se il campione non differisce dalla popolazione in nessuna caratteristica ritenuta determinante per il risultato finale della ricerca.
d) Il campione a grappoli (cluster sample): questa procedura è simile al campione a più stadi, in quanto parte da una popolazione assai grande da cui seleziona casualmente un campione iniziale di unità aggregate (grappoli di unità) come Stati, città, o quartieri e poi considera tutte le unità dei grappoli scelti. In questo caso però la selezione finale del campione non avviene in maniera casuale, infatti ciascuna unità aggregata selezionata dalla popolazione è comunque inclusa nel campione finale. In alcuni casi il c. a grappoli è assolutamente necessario, in quanto non si potrebbe risolvere in altro modo il problema del c. Per esempio, se il compito è esaminare uno stock di casse di bottiglie, piuttosto che prendere una bottiglia da ogni cassa, rovinando così tutte le casse, si estraggono casualmente alcune casse e se ne esamina tutto il contenuto. Questo tipo di c., solitamente adottato per prodotti commerciali, a volte è utilizzato anche in altri campi: se un ricercatore vuole studiare l’atteggiamento che i cattolici praticanti negli USA hanno nei riguardi delle autorità ecclesiastiche, egli potrà scegliere un campione casuale di dieci chiese tratto dall’universo di tutte le chiese di uno Stato, e quindi inviare dei questionari a tutti i fedeli praticanti di quelle dieci chiese.
Si potrebbe però obiettare che i risultati non possono essere senz’altro generalizzati, perché facendo riferimento al secondo esempio non è detto che quello Stato sia rappresentativo degli altri Stati del Paese; inoltre, restringendo a dieci chiese la scelta tra grandi gruppi di cattolici, si può accentuare le peculiarità di quelle stesse chiese.
Malgrado tali difficoltà, questo tipo di campione rende la ricerca economicamente conveniente perché la rilevazione di dati riguardanti unità vicine è più agevole e non occorre l’elenco di tutte le unità della popolazione, ma soltanto di quelle dei grappoli.
4. Le dimensioni del campione
Quando si determinano le dimensioni del campione occorre tenere conto di alcuni fattori.1) Le dimensioni della popolazione. Se la popolazione è vasta, anche il campione deve essere vasto. Se vogliamo fare uno studio sui sacerdoti del Burundi che studiano a Roma possiamo anche creare un campione piccolo, ma se vogliamo fare uno studio sugli africani che vivono in Italia il campione dovrà essere più vasto. Dell’importanza della dimensione dell’universo nella determinazione dell’ampiezza del campione e come quest’ultima sia fortemente correlata al livello di fiducia scelto, abbiamo già parlato (vedi 2).
2) Le risorse disponibili e i limiti di tempo. Spesso sono questi fattori a decidere le dimensioni del campione, soprattutto quando si vuole crearne uno veramente casuale.
3) L’incisività dell’effetto. Se l’effetto studiato è ampio e forte, un piccolo campione può anche bastare, altrimenti dobbiamo ricorrere a campioni più vasti.
4) Il numero dei sotto-gruppi da confrontare. Se il campione deve essere diviso in sotto-gruppi e se si devono esaminare le variabili dipendenti, può essere necessario avere campioni piuttosto grandi per far sì che vi siano sufficienti unità in ciascun sotto-gruppo.
5) I tassi di rifiuto e di mortalità. Un campione deve anche tenere conto dei dati che possono risultare non utilizzabili. In previsione del fatto che il tasso di risposta possa essere basso o che il questionario non venga compilato correttamente da una certa percentuale di intervistati (per le ragioni più varie), deve essere presa in seria considerazione l’eventualità di aumentare preventivamente le dimensioni del campione.
La ragione principale per cui si ricorre a un campione è che esso ci permette di fare delle previsioni senza dover censire tutta la popolazione. L’uso di un campione però comporta inevitabilmente il rischio di incorrere in un qualche tipo di distorsione, per evitare il quale non basta aumentare le dimensioni del campione (con un corrispondente aumento dei costi). In ogni ricerca c’è un punto determinato oltre il quale l’aumento delle dimensioni del campione non riduce necessariamente, e in maniera significativa, l’errore di c. Il campione migliore nasce quindi dal compromesso tra i costi aggiuntivi che si devono affrontare per includere altre unità nel campione e la riduzione dell’errore di c. che se ne ottiene.
5. Conclusione
Fin troppo spesso i ricercatori prestano scarsa attenzione alla definizione del campione. Pur avendo ben congegnato lo strumento di ricerca e impiegato nell’analisi dei dati metodi statistici estremamente sofisticati, se il campione non è attendibile, non possono generalizzare a tutta la popolazione le conclusioni raggiunte: sono imprecise e dunque inutilizzabili. I ricercatori cercheranno quindi, ogni qual volta sarà possibile, di orientarsi verso la selezione di campioni di tipo probabilistico. (Metodologia della ricerca)Foto
Non ci sono foto per questa voce
Bibliografia
- AMMASSARI Paolo, Validità e costruzione delle variabili. Elementi per una riflessione in MARRADI Alberto, Metascienza. Riflessioni sulla conoscenza scientifica, Sociologia e ricerca sociale 1984.
- BAILEY Kenneth D., Metodi della ricerca sociale, Il Mulino, Bologna 1995.
- CARDANO Mario - MICELI Renato (edd.), Il linguaggio delle variabili, Rosenberg & Sellier, Torino 1991.
- CICCHITELLI Giuseppe - HERZEL Amato - MONTANARI Giorgio E., Il campionamento statistico, Il Mulino, Bologna 1997.
- DE CARLO Nicola A. - ROBUSTO Egidio, Teorie e tecniche di campionamento nelle scienze sociali, LED, Milano 1996.
- MARBACH Giorgio, Le ricerche di mercato, UTET, Torino 1996.
- MARRADI Alberto, Concetti e metodo per la ricerca sociale, Giuntina, Firenze 1984.
- MARRADI Alberto (ed.), Costruire il dato. Sulla tecnica di raccolta delle informazioni nelle scienze sociali, Franco Angeli, Milano 1988.
- PITRONE Maria Concetta, Il sondaggio, Franco Angeli, Milano 2003.
- RUSS Martin, Sound synthesis and sampling. The CD-ROM, Focal Press, Boston (MA) 1999.
Documenti
Non ci sono documenti per questa voce
Links
Non ci sono link per questa voce
Note
Come citare questa voce
Berchmans M. Britto , Rimano Alessandra , Campionamento, in Franco LEVER - Pier Cesare RIVOLTELLA - Adriano ZANACCHI (edd.), La comunicazione. Dizionario di scienze e tecniche, www.lacomunicazione.it (21/11/2024).
Il testo è disponibile secondo la licenza CC-BY-NC-SA
Creative Commons Attribuzione-Non commerciale-Condividi allo stesso modo
Creative Commons Attribuzione-Non commerciale-Condividi allo stesso modo
184