Come notato sopra nella sezione Stima, l’inferenza statistica è il processo di utilizzo dei dati di un campione per fare stime o verificare ipotesi su una popolazione. Il campo dei metodi di indagine campionaria si occupa dei modi efficaci per ottenere dati campionari. I tre tipi più comuni di indagini campionarie sono le indagini per posta, le indagini telefoniche e le interviste personali. Tutti questi comportano l’uso di un questionario, per il quale esiste un ampio corpo di conoscenze riguardanti la formulazione, la sequenza e il raggruppamento delle domande. Ci sono altri tipi di indagini campionarie che non implicano un questionario. Per esempio, il campionamento delle registrazioni contabili per le revisioni e l’uso di un computer per campionare un grande database sono indagini campionarie che utilizzano l’osservazione diretta delle unità campionate per raccogliere i dati.
Un obiettivo nel disegno delle indagini campionarie è quello di ottenere un campione che sia rappresentativo della popolazione in modo che possano essere fatte inferenze precise. L’errore di campionamento è la differenza tra un parametro della popolazione e una statistica del campione usata per stimarlo. Per esempio, la differenza tra una media della popolazione e una media del campione è un errore di campionamento. L’errore di campionamento si verifica perché una parte, e non l’intera popolazione, è sottoposta a indagine. I metodi di campionamento probabilistico, dove la probabilità che ogni unità appaia nel campione è nota, permettono agli statistici di fare affermazioni probabilistiche sulla dimensione dell’errore di campionamento. I metodi di campionamento non probabilistici, che si basano sulla convenienza o sul giudizio piuttosto che sulla probabilità, sono spesso utilizzati per i vantaggi di costo e di tempo. Tuttavia, si dovrebbe essere estremamente cauti nel fare inferenze da un campione non probabilistico; se il campione è rappresentativo o meno dipende dal giudizio delle persone che progettano e conducono l’indagine e non da solidi principi statistici. Inoltre, non esiste una base oggettiva per stabilire i limiti dell’errore di campionamento quando è stato usato un campione non probabilistico.
La maggior parte dei sondaggi governativi e professionali utilizzano un campionamento probabilistico. Si può generalmente assumere che qualsiasi sondaggio che riporta un margine di errore in più o in meno sia stato condotto utilizzando un campionamento probabilistico. Gli statistici preferiscono i metodi di campionamento probabilistico e ne raccomandano l’uso quando possibile. Sono disponibili diversi metodi di campionamento probabilistico. Alcuni dei più comuni sono rivisti qui.
Il campionamento casuale semplice fornisce la base per molti metodi di campionamento probabilistico. Con il campionamento casuale semplice, ogni possibile campione di dimensione n ha la stessa probabilità di essere selezionato. Questo metodo è stato discusso in precedenza nella sezione Stima.
Il campionamento casuale semplice stratificato è una variazione del campionamento casuale semplice in cui la popolazione è suddivisa in gruppi relativamente omogenei chiamati strati e un campione casuale semplice è selezionato da ogni strato. I risultati degli strati sono poi aggregati per fare inferenze sulla popolazione. Un vantaggio collaterale di questo metodo è che si possono anche fare inferenze sulla sottopopolazione rappresentata da ogni strato.
Il campionamento a cluster comporta la suddivisione della popolazione in gruppi separati chiamati cluster. A differenza del campionamento casuale semplice stratificato, è auspicabile che i cluster siano composti da unità eterogenee. Nel campionamento a grappolo a uno stadio, viene selezionato un campione casuale semplice di cluster e i dati vengono raccolti da ogni unità nei cluster campionati. Nel campionamento a grappolo a due stadi, viene selezionato un campione casuale semplice di cluster e poi un campione casuale semplice viene selezionato dalle unità in ogni cluster campionato. Una delle principali applicazioni del campionamento a grappolo è chiamata campionamento ad area, dove i cluster sono contee, comuni, blocchi di città, o altre sezioni geografiche ben definite della popolazione.