Gwennaëlle Brilhault, cheffe du service des enquêtes, et Arianna Caporali, ingénieure de recherche, nous présentent le DataLab de l’Ined.

L’Ined a mis en place un DataLab. En quoi consiste ce projet ?

(Entretien réalisé en mars 2021)

Le DataLab de l’Ined a été créé en 2019 au sein du Service des enquêtes et sondages (SES), afin de centraliser, structurer et renforcer les activités autour de la mise à disposition de bases de données qui étaient déjà menées à l’Ined. D’une part, cette structure englobe les activités de mise à disposition des données d’enquêtes de l’Ined : la préparation et la diffusion via des logiciels spécialisés des Fichiers de Production et de Recherche (FPR). D’autre part, elle réunit les activités liées à la conception, la collecte, la mise en ligne, la mise à jour et le maintien des bases de données démographiques et contextuelles. Le DataLab participe aussi à la coordination du projet Generations and Gender Programme (GGP), dirigé par le NIDI (Netherlands Interdisciplinary Demographic Institut), à la mise à disposition de son enquête et au développement intégral de sa base de données contextuelle. Les activités du DataLab sont développées en collaboration avec Quetelet PROGEDO Diffusion, le département français du Consortium européen des archives des données d’enquêtes (CESSDA).

Pourquoi a-t-il été créé ?

La création du DataLab est liée au contexte actuel d’ouverture des données de la recherche (selon le Plan national pour la science ouverte) et, plus généralement, d’expansion de l’« open data ». L’accroissement rapide de la disponibilité de données en libre accès ou en accès adapté s’accompagne d’exigences de qualité : données exactes, complètes, cohérentes, bien documentées et dont on peut tracer les sources, dans le respect des règles de protection des données personnelles. Il est important, pour un institut de recherche tel que l’Ined, de connaître et d’évaluer l’offre existante, ainsi que de contribuer à la diffusion de données fiables et précises pour la recherche en sciences sociales. La création du DataLab vise à relever ces défis en s’appuyant sur une expérience déjà solide dans ce domaine. Une telle structure pérenne permet notamment de veiller à ce que les bases de données de l’Ined soient développées et régulièrement mises à jour, en liaison étroite avec les chercheurs qui en sont les premiers pourvoyeurs et utilisateurs. Par ailleurs, cette structure est un interlocuteur « institutionnel » pour les structures similaires déjà existantes dans d’autres instituts européens de recherche en démographie (comme le DataLab de l’Institut allemand Max Planck pour la recherche en démographie, avec qui l’Ined partage la gestion de certaines bases de données).

Quelles sont les bases des données gérées par le DataLab ?

Les données mises à disposition par le DataLab proviennent d’enquêtes réalisées par l’Ined, le plus souvent en collaboration avec d’autres organismes (comme l’Insee). Il s’agit d’enquêtes par questionnaire abordant des problématiques telles que les trajectoires de couple, les parcours migratoires, la fécondité, la contraception, les relations familiales ou avec l’employeur. Ces enquêtes et leurs données sont consultables via le catalogue en ligne des enquêtes géré par le DataLab. Le DataLab maintient également le catalogue en ligne des enquêtes de GGP.

Outre les enquêtes proprement dites, les bases de données démographiques et contextuelles gérées par le DataLab sont développées, pour la plupart, grâce aux différentes collaborations internationales de l’Ined. Elles couvrent un grand nombre de pays européens, voire du monde pour certaines d’entre elles. Elles regroupent de multiples indicateurs, dans le domaine de la démographie principalement, mais aussi de la sociologie, de l’économie ou de la science politique. Ces bases de données sont utilisées par les chercheurs qui exploitent les enquêtes pour éclairer l’environnement et le contexte dans lequel les répondants agissent, ou à des fins pédagogiques pour l’analyse des tendances socio-démographiques. Pour une liste de ces bases, voir : ici.

Quelles sont les procédures d’accès à ces bases des données ?

Les bases de données démographiques et contextuelles gérées par le DataLab sont disponibles en ligne en libre accès. Les données d’enquêtes, quant à elles, sont disponibles exclusivement pour la communauté scientifique (y compris les étudiants) à des fins de recherche et selon une procédure détaillée ici, qui se fait via l’application de commande du portail de Quetelet PROGEDO Diffusion.