Redressement statistique d'un échantillon

Élaboration d’une fonction de redressement statistique

Principes et objectifs

Le redressement d’échantillons (ou calage sur marges) a pour objectif d’améliorer la représentativité de l’échantillon, sur un certain nombre de critères de qualification aussi appelés variables auxiliaires. Le principe sous-jacent est que seul un échantillon ayant la même structure que la population-mère sur les critères que l’on connaît de cette population, permet de généraliser les réponses obtenues sur les autres critères, à l’ensemble de cette population. Le redressement cherche donc à appliquer des pondérations aux individus pour augmenter le poids de ceux appartenant à des groupes sous-représentés dans l’échantillon interrogé par rapport à la population-mère, et à réduire parallèlement le poids de ceux qui sont sur-représentés.

Concrètement, on cherche à obtenir des répartitions comparables entre la population et l’échantillon. On va donc associer à chaque donnée un poids de redressement (par défaut le poids de chaque donnée est identique et égal au taux de sondage : n échantillon / N population).

Programmation de la fonction

Lors de mon passage au Laboratoire de Biologie Halieutique de l’Ifremer de Brest, j’ai élaboré en collaboration avec Sébastien Demanèche (LBH Ifremer Brest) une fonction sous R permettant de calculer les poids de redressement d’un échantillon. Elle utilise le package « survey » développé par le professeur Thomas Lumley, et plus précisément la fonction « calibrate ».

Cette fonction a été appliquée et testée pour une première analyse sur des données du programme ObsDEB provenant du site de la Réunion.

Perspectives et évolutions futures

Les premiers essais se sont montrés concluant et ont permis d’observer une nette amélioration dans les calculs dérivants de l’échantillon redressé, par rapport à l’échantillon non redressé. Cependant, l’objectif principal de la fonction (sa généralisation à n’importe quel « type » d’échantillon) pose de nombreuses questions. Par exemple, il sera nécessaire de regrouper certaines modalités au sein des variables, afin d’éviter la non convergence de la fonction (dans les cas où l’on a très peu d’occurrence pour certaines modalités). De plus, la sélection des variables auxiliaires devra être approfondie. Les limites du redressement, dont la variable « précision », dépendent beaucoup des variables auxiliaires utilisées.