Comme indiqué plus haut dans la section Estimation, l’inférence statistique est le processus d’utilisation des données d’un échantillon pour faire des estimations ou tester des hypothèses sur une population. Le domaine des méthodes d’enquête par sondage s’intéresse aux moyens efficaces d’obtenir des données par sondage. Les trois types d’enquêtes par sondage les plus courants sont les enquêtes par courrier, les enquêtes téléphoniques et les enquêtes par entretien personnel. Toutes ces enquêtes impliquent l’utilisation d’un questionnaire, pour lequel il existe un grand nombre de connaissances concernant la formulation, l’enchaînement et le regroupement des questions. Il existe d’autres types d’enquêtes par sondage qui ne font pas appel à un questionnaire. Par exemple, l’échantillonnage des documents comptables pour les audits et l’utilisation d’un ordinateur pour échantillonner une grande base de données sont des enquêtes par sondage qui utilisent l’observation directe des unités échantillonnées pour recueillir les données.
Un objectif dans la conception des enquêtes par sondage est d’obtenir un échantillon représentatif de la population afin de pouvoir faire des inférences précises. L’erreur d’échantillonnage est la différence entre un paramètre de la population et une statistique d’échantillon utilisée pour l’estimer. Par exemple, la différence entre une moyenne de population et une moyenne d’échantillon est une erreur d’échantillonnage. L’erreur d’échantillonnage se produit parce qu’une partie, et non la totalité de la population, est sondée. Les méthodes d’échantillonnage probabiliste, où la probabilité que chaque unité apparaisse dans l’échantillon est connue, permettent aux statisticiens de faire des déclarations probabilistes sur la taille de l’erreur d’échantillonnage. Les méthodes d’échantillonnage non probabiliste, qui sont basées sur la commodité ou le jugement plutôt que sur la probabilité, sont fréquemment utilisées pour des raisons de coût et de temps. Cependant, il faut être extrêmement prudent lorsqu’on fait des déductions à partir d’un échantillon non probabiliste ; la représentativité ou non de l’échantillon dépend du jugement des personnes qui conçoivent et réalisent l’enquête et non de principes statistiques solides. En outre, il n’existe aucune base objective pour établir des limites à l’erreur d’échantillonnage lorsqu’un échantillon non probabiliste a été utilisé.
La plupart des sondages gouvernementaux et professionnels utilisent un échantillonnage probabiliste. On peut généralement supposer que tout sondage qui fait état d’une marge d’erreur plus ou moins importante a été réalisé à l’aide d’un échantillonnage probabiliste. Les statisticiens préfèrent les méthodes d’échantillonnage probabiliste et recommandent de les utiliser chaque fois que possible. Il existe une grande variété de méthodes d’échantillonnage probabiliste. Quelques-unes des plus courantes sont examinées ici.
L’échantillonnage aléatoire simple constitue la base de nombreuses méthodes d’échantillonnage probabiliste. Avec l’échantillonnage aléatoire simple, chaque échantillon possible de taille n a la même probabilité d’être sélectionné. Cette méthode a été abordée ci-dessus dans la section Estimation.
L’échantillonnage aléatoire simple stratifié est une variante de l’échantillonnage aléatoire simple dans laquelle la population est divisée en groupes relativement homogènes appelés strates et un échantillon aléatoire simple est sélectionné dans chaque strate. Les résultats des strates sont ensuite agrégés pour faire des inférences sur la population. Un avantage secondaire de cette méthode est que des inférences sur la sous-population représentée par chaque strate peuvent également être faites.
L’échantillonnage en grappes implique la partition de la population en groupes distincts appelés grappes. Contrairement au cas de l’échantillonnage aléatoire simple stratifié, il est souhaitable que les grappes soient composées d’unités hétérogènes. Dans l’échantillonnage en grappes à un degré, un échantillon aléatoire simple de grappes est sélectionné et les données sont recueillies auprès de chaque unité des grappes échantillonnées. Dans l’échantillonnage en grappes à deux degrés, un échantillon aléatoire simple de grappes est sélectionné, puis un échantillon aléatoire simple est sélectionné parmi les unités de chaque grappe échantillonnée. L’une des principales applications de l’échantillonnage en grappes est appelée échantillonnage de zone, où les grappes sont des comtés, des cantons, des pâtés de maisons ou d’autres sections géographiques bien définies de la population.