NOE-EDHI (Numérisation, Océrisation, Exploitation : les Enquêtes de Démographie Historique de l’Ined)

Ce projet consiste en une étude de faisabilité d’une vaste opération de numérisation des données nominatives des enquêtes historiques de l’INED (enquête Louis Henry et enquête Jean- Noël Biraben) et de reconnaissance automatique d’écritures manuscrites pour informatiser à moindre coût les informations recueillies durant quatre décennies.

En France comme ailleurs, les études patronymiques se sont récemment multipliées. Démographes, généticiens des populations, historiens, géographes, mais aussi sociologues ou encore linguistes travaillent cette matière dans des perspectives voisines ou complémentaires. Les questions abordées concernent la structuration spatiale des populations et leur évolution au cours du temps, l’appauvrissement et le renouvellement des stocks anthroponymiques interprétés en termes de flux migratoires, les relations entre identité et ethnicité.
On ne dispose pas, pour les périodes anciennes, de corpus informatisé équivalent au « fichier des noms patronymiques » (1891-1990) produit par l’INSEE et qui rassemble les noms recueillis dans les actes de naissance et localisés à la commune. Rares sont donc les études patronymiques qui ont pu s’inscrire dans la très longue durée (de l’apparition des patronymes à l’époque médiévale jusqu’à nos jours).

Les données nominatives produites par l’INED dans le cadre des enquêtes sur la population de la France du XVIe au XIXe siècle n’ont pas fait l’objet d’études patronymiques. Pour certains villages, communs aux deux enquêtes et présents dans le « fichier des noms patronymiques » (1891-1990), la profondeur chronologique pourrait atteindre cinq siècles. Cette amplitude pourrait même être dépassée dans les régions où des corpus anthroponymiques remontant au XIVe siècle sont déjà constitués et disponibles (Normandie et Bourgogne par exemple). Outre la constitution d’un vaste corpus anthroponymique, les données des enquêtes historiques de l’INED offrent de multiples applications. Elles permettraient par exemple de suivre des déplacements de courte et de plus longue distance, d’analyser le temps d’extinction de certains patronymes au niveau local, d’observer la transmission de caractères génétiques rares et peut-être de proposer des études d’épidémiologie génétique. A terme, les données biographiques et démographiques produites par les enquêtes historiques de l’INED pourront être intégrées à des bases de données associant des informations spatio- temporelles géoréférencées (SIG), ouvrant ainsi la voie à des explorations totalement novatrices.

Les données nominatives spécialement concernées par ce projet sont issues du dépouillement des actes de mariage (ou de décès) réalisé en continu dans les communes sélectionnées pour les enquêtes. Les informations ont été consignées sur des documents papier « standardisés » dont il faut repartir pour la « rétroconversion » sous forme de fichiers informatiques. La collaboration avec des informaticiens pourrait permettre de récupérer automatiquement (à partir d’un processus de numérisation/OCR, reconnaissance automatique de caractères) tout ou partie des informations disponibles, notamment les patronymes. Un travail de saisie-vérification permettra de vérifier la qualité de l’OCR et de valider les corpus ainsi constitués.