Séminaire en ligne

(organisé en collaboration avec l’Université de Neuchâtel, Suisse)

Le groupe Enquêtes organise tous les deux mois, en collaboration avec l’Université de Neuchâtel, Suisse un séminaire en ligne francophone sur les sondages d’une durée d’une heure (45 minutes de présentation et 15 minutes de questions-réponses). Chaque séance sera l’occasion de présenter en français des travaux récents et novateurs sur la théorie et la pratique des sondages.

Prochaine séance

A venir.

Séances précédentes

Jeudi 5 juin 2025 à 14h00 (heure de Paris - CET)

Télécharger le support de présentation

Invité : Thomas Merly-Alpa (Institut national de la statistique et des études économiques, France)

Titre : Dix ans d’enquêtes ménages en ligne et en multimode à l’Insee

Résumé : Le développement du recours au multimode dans les enquêtes ménages s'inscrit dans les axes stratégiques de l'Insee depuis 2016. En offrant un mode de réponse alternatif au face-à-face, internet permet de répondre à plusieurs enjeux majeurs pour les enquêtes auprès des ménages : maintenir les taux de réponse des enquêtes auprès des ménages en relâchant la contrainte de la disponibilité concomitante de l'enquêteur et du ménage ; concentrer les moyens d'enquêteurs sur les opérations où ils apportent la plus grande valeur ajoutée ; montrer que l'Insee investit dans des modes de communication innovants avec les enquêtés, déjà largement utilisés par d'autres administrations. Cette présentation fera un point d’étape sur les pratiques d’enquête par internet et en multimode à l’Insee après une dizaine d’années : quelles enquêtes sont en multimode, avec quels protocoles et quels outils, et pour quels résultats ?

Biographie : Thomas Merly-Alpa est en charge des travaux sur le développement des enquêtes en ligne et en multimode au sein de la Direction des Statistiques Démographiques et Sociales de l'Insee. Il est secrétaire du Groupe Spécialisé Enquêtes de la SFdS.

Jeudi 10 avril 2025 à 14h00 (heure de Paris - CET)

Télécharger le support de présentation

Invité : Pascal Ardilly (Institut national de la statistique et des études économiques, France)

Titre : L'apport des modèles pour améliorer l'estimation sur des petites populations

Résumé : Il est bien connu que la taille de l'échantillon répondant conditionne de manière déterminante la qualité des estimations dans les enquêtes par sondage. Lorsque cette taille est trop petite pour permettre d'atteindre les objectifs de qualité que l'on s'est fixés, on peut avoir recours à des modèles statistiques pour améliorer la précision des estimations. Les modèles constituent des hypothèses simplificatrices de la réalité et permettent de tirer profit de corrélations naturelles entre la variable d'intérêt et des variables auxiliaires connues sur l'ensemble de la population. Partant de ces modèles, des stratégies d'estimation sont proposées dans un contexte spécifique. En effet, la modélisation génère (presque) inévitablement des biais mais en contrepartie elle réduit la variance d'échantillonnage. La modélisation peut ou non introduire un aléa dit « de modèle ». Lorsqu'il est explicite, cet aléa est de nature stochastique et diffère de l'aléa de sondage. Cela complique la compréhension et la perception des mesures de qualité. L'exposé propose une présentation de l'apport des modèles à la statistique des petites populations (« petits domaines »), en s'appuyant sur les exemples les plus classiques et en insistant sur les aspects de biais et de variance.

Biographie : Pascal Ardilly, Inspecteur général de l'Insee, travaille au Département des méthodes statistiques de l'Insee, sur différents sujets relatifs à la statistique d'enquête.

Jeudi 20 février 2025 à 14h00 (heure de Paris - CET)

Télécharger le support de présentation

Invité : Estelle Medous (Institut national de l'information géographique et forestière, France)

Titre : Méthode Généralisée de Partage des Poids pour l’amélioration de la précision des estimations de trafic postal en France

Résumé : Dans les enquêtes probabilistes, lorsqu'il n'y a pas de base de sondage pour la population cible, une solution consiste à trouver une base de sondage liée à la population cible et à utiliser un échantillonnage indirect. Les poids d'échantillonnage peuvent être déterminés à l'aide de la méthode généralisée du partage des poids (MGPP). Dans cette présentation, on montrera l'existence de poids optimaux, qui minimisent la variance des estimateurs obtenus pour toute variable d'intérêt. On verra que cette méthode ne peut pas être appliquée lorsque les liens entre la base de sondage et l'échantillon de la population cible sont difficiles à établir de manière exhaustive. Une solution pour éviter ce problème consiste à considérer une population intermédiaire liée à la fois à la base de sondage et à la population cible, et à utiliser un double échantillonnage indirect. La MGPP peut alors être utilisée deux fois : d'abord entre la population de base et la population intermédiaire, puis entre cette dernière et la population cible. À l'aide de l'exemple de l'enquête française sur le trafic postal, nous montrerons que ce double échantillonnage indirect peut détériorer la précision des estimateurs dans certaines situations.

Biographie : Estelle Medous est chargée d’études statistiques à l’Institut national de l'information géographique et forestière (IGN), France. Elle a obtenu son doctorat en statistique en 2023. Elle s’intéresse en particulier au sondage indirect et à l’utilisation de données non probabilistes en sondage. Elle a obtenu en 2024 le prix Jean-Claude Deville pour les travaux présentés lors de ce séminaire.

Séance spéciale, diffusée depuis le Colloque Sondages 2024
Mercredi 6 novembre 2024 à 16h00 (heure de Paris - CET), durée 1h30

Télécharger le support de présentation

Invité : Aurélie Vanheuverzwyn (Médiamétrie)

Titre : Du bilan carbone d'une entreprise à l'intensité carbone d'une enquête : l’expérience de Médiamétrie

Résumé : La publication d’un bilan d’émissions de gaz à effet de serre (GES) est obligatoire tous les 4 ans en France depuis 2012 pour les entreprises de plus de 500 salariés. Médiamétrie va au-delà de cette obligation réglementaire et réalise depuis 2020 un Bilan Carbone annuel complet (scopes 1, 2 et 3). Médiamétrie occupe une place singulière dans l’écosystème des médias au travers de sa mesure d’audience, bien commun sur lequel repose le marché publicitaire. Si elle peut paraître singulière, la contribution de Médiamétrie à la réduction des émissions carbone du secteur est essentielle du fait de son positionnement central et l’entreprise s’est engagée en 2020 à réduire de moitié son empreinte carbone d’ici 2030. L’atteinte de cet objectif passe tout d’abord par l’identification des principales sources d’émissions de GES et des leviers de réduction à l’échelle de l’entreprise, mais aussi par l’adoption de démarches d’éco-conception et d’éco-production des mesures d’audience. Ces démarches impliquent naturellement l’engagement des souscripteurs de ces mesures, c’est pourquoi nous cherchons à décliner le bilan carbone en intensités carbone par étude et ainsi identifier des leviers de réduction concrets étude par étude et estimer l’impact carbone de différents scénarios d’évolution. Dans une première partie, nous présenterons les grandes étapes de réalisation d’un bilan d’émissions de GES et détaillerons les résultats pour Médiamétrie et les mesures prises par l’entreprise pour réduire ses émissions. Nous décrirons ensuite la démarche de déclinaison par étude et présenterons les premiers résultats obtenus.

Cette séance a été suivie d'une table ronde sur l’impact environnemental des enquêtes, modérée par Thomas-Merly Alpa (INSEE) et qui a réuni Yves Fradier (Verian), Noémie Soullier (Santé Publique France), Amandine Stephan (Ined) et Aurélie Vanheuverzwyn (Médiamétrie).

Biographie : Aurélie Vanheuverzwyn est Directrice Exécutive à Médiamétrie, en charge des activités Data Science. Diplômée de l’ENSAI, elle a tout d’abord occupé un poste de chargée d’études et de recherche où elle a notamment travaillé sur les méthodes de calage, de bootstrap et de fusion statistique. Elle coordonne aujourd’hui les activités scientifiques de Médiamétrie et anime la réflexion sur l’évolution des méthodes et pratiques en matière de mesure d’audience. Depuis 2020, elle est également présidente du Groupe Spécialisé Enquêtes de la SFdS.

Jeudi 26 septembre 2024 à 14h00 (heure de Paris - CET)

Télécharger le support de présentation

Invité : Marie-Hélène Toupin (Statistique Canada)
Co-auteur : Claude Girard (Statistique Canada)

Titre : La détermination des degrés de liberté au sein d’une enquête complexe : une évaluation par simulations

Résumé : Dans le cadre du Recensement de la population 2021, Statistique Canada a diffusé des intervalles de confiance pour un grand nombre d’estimations tirées des données du questionnaire détaillé collectées auprès d’un échantillon de ménages. C’était là la première fois que des intervalles de confiance étaient fournis par le recensement canadien afin d’informer les utilisateurs de la précision de ces estimations.
En parallèle, les enquêtes sociales de Statistique Canada ont de plus en plus recours aux intervalles de confiance au lieu des traditionnels coefficients de variation afin de véhiculer la précision de leurs estimations.
L’intervalle de Student compte parmi les intervalles de confiance les plus couramment employés en pratique. Ce type d’intervalle comporte un paramètre dont la détermination est clé afin qu’il soit statistiquement valide. Ce paramètre de couverture est fonction des degrés de liberté, une notion peu discutée en pratique et qui est liée à l’estimation de la variance de l’estimateur employé.
Au cours de cette présentation, on se familiarisera avec les degrés de liberté comme paramètre de couverture des intervalles de confiance de Student dans le cadre de données d’enquête. On examinera par simulations l’adéquation d’une simple règle approximative communément employée en pratique. Finalement, on discutera brièvement des fruits d’une recherche qui a été menée pour le compte du recensement de la population afin d’obtenir une meilleure approximation des degrés de liberté.

Biographie : Marie-Hélène Toupin est méthodologiste principale à Statistique Canada et l’équipe qu’elle forme avec son collaborateur Claude Girard offre le soutien méthodologique à des enquêtes postcensitaires de l’agence. Dre Toupin a obtenu son doctorat en statistique de l’Université Laval, le plus ancien établissement d’éducation supérieure francophone en Amérique, et elle est l’auteur principale d’un article à paraître dans Techniques d’Enquête intitulé Améliorer la couverture des intervalles de confiance au niveau des degrés de liberté : application au recensement canadien.
Claude Girard est méthodologiste principal à Statistique Canada. C. Girard offre du soutien à des enquêtes postcensitaires de l’agence, ainsi qu’au sein du Centre d’expertise de l’Agence sur le genre. Détenteur de maîtrises en mathématiques combinatoires et en hydrologie statistique, C. Girard s’intéresse depuis longtemps à l’estimation de la variance; il a d’ailleurs offert une journée de formation intitulée « Estimation de la variance : quelles options s’offrent à vous? » dans le cadre du 7e Colloque francophone sur les sondages qui s’est tenu à Rennes en 2012.

Jeudi 27 juin 2024 à 14h00 (heure de Paris - CET)

Télécharger le support de présentation

Invité : Philippe Brion (Ex-INSEE et Ministère de l’Agriculture, France)

Titre : Les aspects méthodologiques vus du côté du responsable de production statistique

Résumé : Le responsable d’un dispositif de production statistique est confronté à un ensemble de contraintes lors de la mise en place du dispositif et pendant son déroulement : exigences concernant la qualité du produit à fournir (y compris les délais), coût global pour le contribuable (y compris avec la charge pesant sur les répondants).
Les aspects méthodologiques classiques (échantillonnage, traitement des non réponses, estimateurs à utiliser, calcul de l’erreur d’échantillonnage, etc.) font bien sûr partie de la panoplie des outils sur lesquels des choix doivent être faits, mais ils ne sont pas les seuls. En particulier, une partie du travail de production statistique ne peut être menée de façon algorithmique et demande des interventions manuelles réalisées par des équipes spécialisées, pour la relance des non-répondants ou le contrôle des données ; des arbitrages doivent être menés, au fur et à mesure de l’avancement des opérations, afin de déterminer comment utiliser au mieux les ressources disponibles pour respecter les critères de qualité attendus.
On peut d’ailleurs inscrire ces aspects dans un cadre plus général, incluant également l’entretien d’outils transversaux comme les bases de sondage ; au final, la question posée est celle du « réglage optimal » d’un dispositif global de production, pour lequel on peut agir sur différents paramètres, tout en étant soumis à certaines contraintes.
L’exposé se propose d’illustrer un certain nombre de ces problématiques à partir de l’exemple des statistiques d’entreprises.

Biographie : Philippe Brion a travaillé dans le domaine de la statistique publique française de 1978 à 2015, que ce soit à l’Insee ou au service statistique du Ministère de l’Agriculture. Il a alterné des postes de méthodologue et des postes de responsable de production, sur des sujets variés comme les statistiques agricoles, les statistiques d’entreprises, ou l’appui aux services statistiques des pays en développement.

Jeudi 18 avril 2024 à 14h00 (heure de Paris - CET)

Télécharger le support de présentation

Invité : Mehdi Dagdoug, Université McGill, Montréal, Canada

Titre : Apprentissage statistique pour l’échantillonnage en population finie

Résumé : Les modèles prédictifs sont fréquemment incorporés dans les stratégies d’échantillonnage. Quelques exemples d’utilisations incluent les estimateurs basés sur un modèle, les estimateurs assistés par un modèle, ainsi que le traitement de la non-réponse avec notamment l’imputation et la repondération. Aussi, les dernières décennies ont été marquées par une attention croissante de la communauté statistique envers l’apprentissage statistique. Ce domaine a par conséquent connu un essor très important, tant du point de vue théorique que computationnel.
L’apprentissage statistique fournit ainsi de nouveaux outils particulièrement flexibles aux statisticiens d’enquête. Toutefois, cela pose également de nouveaux défis tels que la sélection de modèles et l’estimation de la variance.

Dans ce séminaire, nous présenterons une revue de la littérature concernant l’utilisation des méthodes prédictives en sondage. Leurs propriétés habituelles seront détaillées. Nous discuterons de leurs avantages, ainsi que de leurs limitations. Certaines pistes permettant de contourner ces limitations seront présentées.

Biographie : Mehdi Dagdoug est professeur adjoint à McGill University. Ses sujets de recherche sont à l’intersection entre la théorie des sondages et l’apprentissage statistique, avec notamment un intérêt pour les questions de statistique en grande dimension.

Jeudi 8 février 2024 à 14h00 (heure de Paris - CET)

Télécharger le support de présentation : Partie 1 - Partie 2

Invité : Anne-Sophie Charest (Université de Laval, Canada)

Titre : La confidentialité différentielle pour protéger les renseignements personnels

Résumé : La confidentialité différentielle a pour but de permettre l’analyse statistique d’un jeu de données sans révéler les informations personnelles des participants. Pour ce faire, elle mesure formellement l’impact pour un individu d’accepter de faire partie d’un jeu de données à partir duquel seront publiées certaines statistiques. C’est une approche qui gagne en popularité tant chez les chercheurs qu’en pratique, et qui est d’ailleurs utilisée par le Census Bureau pour la publication des données du recensement américain de 2020. Je vous propose ici une introduction peu technique à la confidentialité différentielle, mettant l’accent sur l’interprétation de la mesure et les outils nécessaires à sa mise en œuvre dans différents contextes.

Biographie : Anne-Sophie Charest est une professeure agrégée en statistique au Département de mathématiques et de statistique de l’Université Laval. Elle est titulaire d’un baccalauréat Honours in Probability and Statistics de l’université McGill, à Montréal, ainsi que d’une maîtrise et d’un doctorat en statistique de l’université Carnegie Mellon, à Pittsburgh. Elle travaille sur la protection de la confidentialité de données statistiques. Elle s’intéresse particulièrement à la génération de jeux de données synthétiques ainsi qu’à la méthodologie statistique requise pour analyser de tels jeux de données. Elle travaille également sur la mesure des risques de divulgation de données sensibles, notamment par le biais de la confidentialité différentielle. Professeure Charest est membre du Centre de Recherche en Données Massives et de l’Institut Intelligence et Données de l’Université Laval.

Jeudi 16 novembre 2023 à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Jean-François Beaumont (Statistique Canada)

Titre : Inférence à partir d’échantillons non probabilistes

Résumé : Depuis plusieurs décennies, les agences nationales de statistique utilisent les enquêtes probabilistes comme outil privilégié pour répondre aux besoins d’information sur une population d’intérêt. Ces dernières années, un vent de changement s’est fait sentir et d’autres sources de données sont de plus en plus explorées. Cinq facteurs clés sont à l’origine de cette tendance : la baisse des taux de réponse aux enquêtes probabilistes, le coût élevé de la collecte des données, le fardeau accru sur les répondants, le désir d’accéder à des statistiques « en temps réel » et la prolifération de données de sources non probabilistes. Dans cette présentation, on se concentrera sur le scénario où les variables d’intérêt sont observées seulement dans un échantillon non probabiliste. On supposera que l’échantillon non probabiliste contient des variables auxiliaires qui sont également observées dans un échantillon probabiliste. On passera en revue trois approches d'intégration des données des deux échantillons : le calage de l’échantillon non probabiliste, l'appariement statistique et la pondération par l’inverse de la probabilité de participation. On discutera des caractéristiques de chaque approche, y compris leurs avantages et limites, et présentera quelques résultats empiriques.

Biographie : Jean-François Beaumont est Conseiller principal en statistique à Statistique Canada, où il y travaille depuis plus de 25 ans. Il est actuellement rédacteur en chef de la revue Techniques d’enquête (Survey Methodology) et responsable du Programme de recherche et développement de la Direction des méthodes statistiques modernes et de la science des données. Ses récents projets de recherche et applications portent principalement sur l’intégration de données et l’estimation sur petits domaines.

Jeudi 14 septembre 2023 à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Anne Ruiz-Gazen (Université Toulouse 1 Capitole)

Titre : Statistique robuste et sondages

Résumé : En population infinie, la statistique robuste fondée par Peter J. Huber et Frank R. Hampel s’intéresse au cas où la distribution des données s’écarte légèrement du modèle supposé. Ce cadre correspond à des données contaminées par des observations atypiques. Dans le cas de l’estimation de paramètres, il existe différentes mesures de sensibilité, telles que la fonction d’influence ou le point de rupture, et il est en général souhaitable que la fonction d’influence d’un estimateur soit bornée et que son point de rupture soit strictement positif.

En population finie, les concepts de robustesse classiques ne sont pas applicables directement et doivent être adaptés. Dans un échantillon, les statisticiens d’enquête distinguent généralement les observations atypiques représentatives, qui peuvent aussi exister dans la population non échantillonnée, des observations atypiques non représentatives qui n’existent que dans l’échantillon ou qui constituent des données erronées. Dans les enquêtes, les observations atypiques non représentatives sont généralement corrigées en amont de l’estimation des paramètres, à l’étape de validation des données d’entrée. Les observations atypiques représentatives en revanche sont traitées à l’étape d’estimation. Les méthodes d’estimation robustes existantes dépendent du type d’inférence considérée, sous le plan de sondage ou sous un modèle de super-population.

Après une introduction rapide à la statistique robuste en population infinie, nous nous intéresserons au problème du traitement des observations atypiques en sondages. Nous présenterons en particulier l’approche par le biais conditionnel qui peut s’interpréter comme une généralisation de la fonction d’influence en population finie.

Biographie : Anne Ruiz-Gazen est professeure des universités en statistique à l’école d’économie de Toulouse. Ses sujets de recherche portent notamment sur la théorie des sondages et la statistique robuste multivariée.

Jeudi 15 juin 2023 à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Marc Christine (Ex-Insee, Direction de la méthodologie et de la coordination statistique et internationale)

Titre : De l’observation du revenu déclaré en tranches à la prédiction du vrai revenu fiscal, ou comment estimer un modèle économétrique sans disposer d’observations.

Résumé : Une variable essentielle explicative du comportement des ménages dans de multiples domaines est le revenu du ménage. La difficulté est de disposer d’une observation correcte de cette variable. Lorsque les enquêtes sont échantillonnées dans les bases fiscales, on dispose d’une donnée vraie, le revenu déclaré dans l’IRPP.

Mais certaines enquêtes du service statistique public, plus anciennes, échantillonnées dans les bases issues du recensement de la population ou portant sur des sujets nécessitant des bases de sondage appropriées à la thématique ne permettent pas de disposer de cette information.

Celle-ci est alors collectée dans l’enquête elle-même ou, pour l’Insee, dans le cadre qui l’enserre : le Tronc Commun des Enquêtes Ménages (TCM). Il s’agit alors d’une donnée déclarative.

La donnée ainsi observée est évidemment entachée de plusieurs erreurs ou imperfections qui ne la rendent pas homogène et elle pose des problèmes de cohérence conceptuelle par rapport au vrai revenu fiscal, lequel n’est pas connu au niveau individuel.

Ce séminaire se propose de fournir des solutions théoriques à deux questions :

si l’on dispose de sources fiscales exogènes fournissant la distribution vraie des revenus, peut-on et comment utiliser ces informations pour les incorporer dans le processus de calage des enquêtes qui ne disposeraient que d’un revenu déclaré ?
peut-on, au niveau individuel, à partir de données déclaratives observées sur le revenu, « reconstituer » un revenu vrai au sens du revenu fiscal (supposé inobservable) ? On montrera que la connaissance de la distribution des revenus vrais et de l’observation des revenus déclarés en tranches, permet d’imputer un revenu vrai estimé à chaque unité statistique.

Biographie : Marc Christine est ancien Inspecteur général de l’Insee. Il a travaillé pendant de nombreuses années dans le domaine de la méthodologie statistique et de l’expertise des systèmes et opérations statistiques. Il a été responsable, depuis 2000, de l’organisation des éditions triennales des Journées de méthodologie statistique de l’Insee. En parallèle, il a enseigné la théorie des probabilités à l’Ensae durant plus de trois décennies. Il a également fait divers travaux appliqués ou théoriques en matière de théorie des sondages et participé à des enseignements de cette discipline, en formation académique spécialisée ou continue.

Jeudi 20 avril 2023 à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Caren Hasler (Université de Neuchâtel, Suisse)

Titre : Discussion sur la repondération pour la non-réponse : Quand les probabilités de réponse sont estimées par calage ou par maximum de vraisemblance

Résumé : Dans cette présentation, nous discuterons deux alternatives de repondération pour une enquête présentant de la non-réponse totale. La première alternative consiste à estimer les probabilités de réponse par maximum de vraisemblance, la seconde par calage. Pour les deux alternatives, l’inverse des probabilités de réponse estimées sont utilisées pour augmenter le poids des répondants afin de diminuer le biais de non-réponse. Nous présenterons les propriétés des estimateurs ainsi obtenus, montrerons qu’ils sont asymptotiquement sans biais et plus efficaces que l’estimateur qui se base sur les vraies probabilités de réponse. Nous parlerons également de la double robustesse, c’est-à-dire du comportement des estimateurs lorsque le modèle utilisé pour estimer les probabilités de réponse est mal spécifié. Ensuite, nous montrerons les résultats d’une étude par simulations. Enfin, nous conclurons par des remarques générales quant aux méthodes présentées et à des alternatives plus robustes.

Biographie : Caren Hasler, docteur en statistique, est chercheure à l'Université de Neuchâtel, Suisse. Ses intérêts de recherche se portent principalement sur les aspects théoriques et pratiques du traitement de la non-réponse dans les enquêtes.

Jeudi 23 février 2023 à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Guillaume Chauvet (ENSAI)

Titre : Estimation de variance par bootstrap pour des estimations transversales dans le cas d'une enquête à échantillons rotatifs : cas de l'enquête Histoire de Vie et Patrimoine de l'Insee

Co-auteurs : Emmanuel Gros, Olivier Guin et Jean Rubin (Insee)

Résumé : L’Enquête Histoire de Vie et Patrimoine (EHVP) a pour objectif de décrire les actifs financiers, immobiliers et professionnels des ménages ainsi que l’endettement associé. Elle constitue la partie française du Household Finance and Consumption Survey (HFCS), piloté par la Banque Centrale Européenne. Le champ de cette enquête est celui des ménages ordinaires résidant en France.

L’échantillon HVP est constitué à l’aide d’un plan de sondage rotatif, utilisant 4 sous-échantillons tirés et entrés dans le dispositif d’enquête 4 vagues consécutives. Pour chacun de ces 4 sous-échantillons, un échantillon de logements est d’abord tiré dans l’échantillon-maître de l’Insee, obtenu selon un plan de sondage à plusieurs degrés. Les individus des ménages de ces logements sont enquêtés, puis suivis dans le temps et réinterrogés pendant 4 années consécutives, en compensant l’attrition par une méthode de repondération. En régime de croisière, une estimation transversale l’année t est donc obtenue en agrégeant les 4 sous-échantillons d’individus suivis jusqu’au temps t. Comme ces sous-échantillons représentent des populations chevauchantes, la méthode de partage des poids est utilisée pour éviter les problèmes de comptes multiples.

Dans ce travail, nous présenterons brièvement la méthode d’échantillonnage utilisée pour l’enquête HVP, ainsi que la méthode d’estimation retenue utilisant la méthode de partage des poids. Nous expliquerons également comment la méthode du bootstrap avec remise a été utilisée pour produire une estimation de variance pour les estimations transversales.

Biographie : Docteur en Statistique et Habilité à diriger des recherches, Guillaume Chauvet est enseignant-chercheur à l’Ensai et membre de l’UMR-6625 IRMAR. Il s’intéresse aux multiples aspects de la Statistique d’Enquête, incluant les méthodes d’échantillonnage, le traitement de la non-réponse, l’estimation de précision, le traitement de données longitudinales, l’analyse de données d’enquête, ainsi que leur application à des domaines connexes (épidémiologie, foresterie). Il est l’auteur de nombreux articles scientifiques.

Jeudi 15 décembre 2022 à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Camelia Goga (Université de Bourgogne Franche-Comté, France)

Titre : Estimation assisté par modèle dans un cadre à grande dimension pour des données d’enquête

Co-auteurs : La présentation est une synthèse des résultats de plusieurs travaux: Calibration and Partial Calibration on Principal Components when the Number of Auxiliary Variables is Large (avec Hervé Cardot et Muhammad Ahmed Shehzad); Asymptotic efficiency of the calibration estimator in a high-dimensional setting (avec Guillaume Chauvet); Model-assisted estimation in a high-dimensional settings for survey data (avec Mehdi Dagdoug et David Haziza).

Résumé : Dans les enquêtes par sondage, les estimateurs basés sur un modèle sont couramment utilisés pour obtenir des estimateurs efficaces pour des paramètres d’intérêt comme les totaux ou les moyennes. De nos jours, il n’est plus rare d’être confronté à un très grand nombre de variables auxiliaires et les estimateurs assistés par un modèle peuvent être moins efficaces dans ces conditions. Dans cet exposé, je discuterai de l’efficacité asymptotique des estimateurs assistés par un modèle en présence d’un très grand nombre de variables auxiliaires et je montrerai qu'ils peuvent souffrir d'une variabilité supplémentaire dans certaines conditions. Je présenterai également deux techniques pour améliorer l’efficacité de l’estimateur assisté par un modèle dans un contexte de grande dimension: la première est basée sur la réduction de dimension par composantes principales et la deuxième est basée sur la pénalisation de type ridge. La méthodologie est illustrée sur des données réelles de consommation d’électricité de ménages et d'entreprises irlandaises.

Biographie : Camelia Goga est professeur en statistique à l’Université de Franche-Comté. Ses thématiques de recherche portent sur la théorie des sondages, en particulier l’estimation en grande dimension pour des données de type enquête par des méthodes de statistique fonctionnelle, non-paramétrique.

Jeudi 20 octobre 2022 à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : David Haziza (University of Ottawa, Canada)

Titre : Utilisation des méthodes d’apprentissage automatique pour le traitement de la non-réponse totale dans les enquêtes

Co-auteurs : Khaled Larbi (ENSAE, France) and Mehdi Dagdoug (Université de Bourgone Franche Comté, France)

Résumé :

Ces dernières années, l'apprentissage automatique a suscité un intérêt considérable dans les offices nationaux de statistique. Grâce à leur flexibilité et leur bonne performance en termes de prédiction, ces méthodes peuvent s'avérer utiles au stade du traitement de la non-réponse totale. Cependant, dans un contexte de non-réponse totale, nous sommes confrontés à un problème d'estimation plutôt qu'à un problème de prédiction. Notre objectif est d'estimer un paramètre de population finie (par exemple, un total de population) et le modèle de non-réponse le plus prédictif ne conduit pas nécessairement au meilleur estimateur (en termes d'erreur quadratique moyenne) d'un total/moyenne de population. Cette situation est différente de celle que l'on rencontre dans un contexte d'imputation pour la non-réponse partielle où l’on s'attend à ce que l'algorithme le plus prédictif soit performant en termes de biais et d'efficacité. Nous illustrerons ce problème au moyen d’un exemple simulé. De plus, nous présenterons les résultats d’une vaste étude par simulation dont le but est de comparer plusieurs méthodes d’apprentissage automatique en termes de biais et d’efficacité. En plus des procédures d'apprentissage automatique classiques (arbres de régression, forêts aléatoires, boosting, etc.), nous évaluerons la performance de certaines approches d'ensemble qui utilisent différentes procédures d'apprentissage automatique pour produire un ensemble unique de poids ajustés pour la non-réponse.

Biographie : David Haziza est professeur au département de mathématiques et de statistique à l’Université d’Ottawa. Il est également consultant à Statistique Canada. Ses intérêts de recherche portent sur l’inférence en présence de valeurs manquantes, l’inférence en présence de valeurs influentes, les méthodes de ré-échantillonnage et les méthodes d’apprentissage automatique.

Séminaire en ligne

(organisé en collaboration avec l’Université de Neuchâtel, Suisse)

Prochaine séance

Séances précédentes

Jeudi 5 juin 2025 à 14h00 (heure de Paris - CET)

Jeudi 10 avril 2025 à 14h00 (heure de Paris - CET)

Jeudi 20 février 2025 à 14h00 (heure de Paris - CET)

Séance spéciale, diffusée depuis le Colloque Sondages 2024 Mercredi 6 novembre 2024 à 16h00 (heure de Paris - CET), durée 1h30

Jeudi 26 septembre 2024 à 14h00 (heure de Paris - CET)

Jeudi 27 juin 2024 à 14h00 (heure de Paris - CET)

Jeudi 18 avril 2024 à 14h00 (heure de Paris - CET)

Jeudi 8 février 2024 à 14h00 (heure de Paris - CET)

Jeudi 16 novembre 2023 à 14h00 (heure de Paris - CET)

Jeudi 14 septembre 2023 à 14h00 (heure de Paris - CET)

Jeudi 15 juin 2023 à 14h00 (heure de Paris - CET)

Jeudi 20 avril 2023 à 14h00 (heure de Paris - CET)

Jeudi 23 février 2023 à 14h00 (heure de Paris - CET)

Jeudi 15 décembre 2022 à 14h00 (heure de Paris - CET)

Jeudi 20 octobre 2022 à 14h00 (heure de Paris - CET)

Séance spéciale, diffusée depuis le Colloque Sondages 2024
Mercredi 6 novembre 2024 à 16h00 (heure de Paris - CET), durée 1h30