Pondérations, redressements, imputations
En aval d’une enquête par sondage, on procède au calcul des «pondérations», c’est-à-dire des coefficients qui permettent l’extrapolation des données de l’échantillon à l’ensemble de la population cible.
Calcul de pondérations et redressements
Le calcul des pondérations est étroitement lié au plan de sondage. Cependant, les estimations produites avec cette pondération initiale peuvent être améliorées afin de tenir compte des non-réponses, des données auxiliaires disponibles dans la base de sondage, ou de sources extérieures. On parle alors de «redressement».
La matière première fondamentale pour effectuer un redressement est l’information auxiliaire, qui peut être interne à l’enquête ou provenir de sources externes. Des techniques spécifiques peuvent alors être mises en œuvre pour tirer le meilleur parti de ces informations auxiliaires: les techniques de redressement des non-réponses totales, les techniques de post-stratification ou de «calage sur marges».
Les informations internes à mobiliser peuvent être issues :
• de la base de sondage, soit sous forme de statistiques agrégées (totaux, proportions), soit au niveau individuel, et dans ce cas disponibles, en principe, pour chaque individu tiré, qu’il soit répondant-e-e ou non;
• du processus de collecte, étant en principe disponibles pour tous les individus tirés dans l’échantillon, qu’ils soient répondant-e-e-s ou non. Il peut s’agir des raisons de la non-réponse (refus, non-contact, individu hors champ, etc.), du nombre de contacts nécessaires avant la réalisation de l’interview, etc.; ces informations sont appelées paradata ou paradonnées.
Les informations externes, pour leur part, proviennent généralement de publications issues d’un recensement ou d’une autre enquête statistique de référence. Quelquefois, afin de disposer de données portant sur un champ similaire à celui de la population étudiée, ou de la répartition selon certaines variables non publiées, on peut être amené à travailler sur les micro-données d’enquêtes, par exemple l’enquête Emploi de l’Insee.
En l’absence d’information auxiliaire, il est impossible de redresser les données, et on doit se contenter de l’estimation produite à partir de la pondération initiale. Le recueil d’informations auxiliaires lors de la collecte des données, de même que la recherche de données externes sur le champ étudié doivent dès lors être prévus dans le calendrier de production.
Correction des non-réponses partielles
Les données peuvent aussi être affectées par la non-réponse partielle, c’est-à-dire l’absence de réponse à une partie du questionnaire. Des techniques d’imputation permettent en partie de contrecarrer ce type de problème. Les méthodes les plus couramment utilisées sont:
- l’imputation à partir de données externes (cold-deck);
- l’imputation à partir de données internes (hot-deck).
Mais d’autres existent aussi: imputations multiples par régression, imputations par algorithmes dérivés des moindres carrés partiels (en particulier NIPALS), à variance réduite, etc.
L’information sur les non-répondant-e-s
Que ce soit pour redresser ou imputer, une étude préalable de la non-réponse est nécessaire afin d’en comprendre les mécanismes et les déterminants.
Pour cela, il faut disposer d’informations sur les non-répondant-e-s. En ce qui concerne les non-réponses totales, on connaitt, a minima, les données contenues dans la base de sondage, mais dans la mesure du possible, il est utile de collecter d’autres informations en cours de collecte, quand bien même un questionnaire n’a pu être réalisé. Par exemple, il est utile de savoir les raisons de la non-réponse (refus, absence d’interlocuteur, problème de langue, etc.)
Pour les non-réponses partielles, on dispose en principe des réponses aux autres questions qui, elles, ont été remplies. L’étude de la probabilité de réponse permet alors de choisir la méthode d’imputation adéquate.