#15 : l'IA appliquée aux archives, le projet Socface

Lancé en octobre 2021, ce projet de recherche piloté par l’Institut national d’études démographiques (INED) et la société Teklia, en partenariat avec le Service interministériel des Archives de France et Paris School of Economics, a appliqué des technologies de reconnaissance des écritures manuscrites et d'intelligence artificielle sur les vues numérisées des 20 recensements de population ayant lieu entre 1836 et 1936. Ont contribué quatre-vingt-dix services d’Archives départementales, une dizaine d’Archives municipales et les Archives nationales d’outre-mer, pour produire une base de données de la population française sur cette période de plus de quatre cent millions de notices.

Les Archives départementales de Tarn-et-Garonne ont transmis dès le début du projet les 71 016 pages de listes nominatives conservées et numérisées jusqu’à présent.

 

Liste de recensement d’Auvillar en 1836, commune dont les Archives renferment la plus ancienne liste du département, datant de 1806

 

Les résultats :

 

Le résultat de leur traitement par HTR (Handwritten text recognition) est désormais accessible sur le site France Archives, via la base de noms : on obtient au total 1 797 634 mentions d’individus pour les 195 communes que compte le département.

Il est possible de faire une recherche sur les noms et prénoms, ainsi que sur le lieu (c’est-à-dire la commune de recensement). Un champ de recherche libre permet d’indiquer toute information complémentaire, comme une profession. Enfin, les résultats peuvent être affinés par filtres sur le lieu de conservation du document (service d’archives d’où il provient), sur la date du recensement, qui sont des données fiables.

 

Base de noms de France Archives : page dédiée aux résultats sur les recensements de Tarn-et-Garonne

Les résultats sur le site France Archives ne donnent pas directement accès aux images numérisées des recensements. Le lien « Consulter le document numérisé » sur la droite de l’écran renvoie à l’inventaire des listes de recensements sur le site des Archives départementales. Il faut alors rechercher la commune et l’année concernées, et se reporter aux indications de « page et position de la ligne » où se trouve la personne indexée. Des améliorations techniques sont prévues pour permettre un accès plus direct aux images, tant sur France Archives que via notre moteur de recherche Bach.

Les bénéfices de cette opération

 

Plus besoin de feuilleter des centaines de pages de registres : en quelques clics, vous pouvez retrouver la trace d'un aïeul, savoir où il habitait, la composition de sa famille et quel métier il exerçait. Socface est un formidable accélérateur de connaissance sur les parcours de vie individuel, car il permet de suivre quelqu'un sur tout le territoire pour plusieurs années. Au-delà, cette masse de données données individuelles sur la population française peut alimenter nombre de travaux scientifiques ou historiques sur des catégories sociales, des sociétés de quartier ou de village, les structures familiales et leur composition, les professions, ou sur les mouvements d'immigration et d'émigration.

 

 

Les colonnes à compléter par l’agent recenseur pour le recensement de 1876 (extrait de la liste de Montech, 6M 103)

 

 

Les limites :

 

Les listes nominatives de recensement sont des sources partielles. D’une part, des erreurs ou des omissions ont pu avoir lieu lors des opérations de recensement ; d’autre part, les listes n’ont pas toujours été établies ou conservées. D’autres ont été découvertes dans les communes après cette opération.

De plus, le traitement automatique des données rajoute une « couche » d’erreurs supplémentaire. Le taux de réussite oscille de 70 à 98 selon les périodes et les recensements. On retrouve ainsi des personnes qui auraient 210 ans, des professions originales tel un « avrogar » (avocat) ou un « vortier mideux » (docteur médecin). De telles erreurs de lecture laissent imaginer celles faites sur les noms et prénoms.

Il est conseillé d'effectuer une recherche en utilisant les troncatures suivantes :

  • "?" pour remplacer une lettre dans le mot ;

  • "*" pour remplacer plusieurs lettres dans le mot.

Pour rechercher le nom "Depeyre", on peut tenter «?epeyre », « de**yre », etc. 


Dans l’ensemble, il vaut mieux rester prudent : ce n’est pas parce qu’on ne trouve pas la personne qu’elle n’existe pas.

Il est toujours vivement recommandé de revenir aux listes nominatives numérisées pour vérifier les informations et poursuivre ses recherches dans les nombreuses autres ressources des services d’archives : 

https://recherche.archives82.fr/document/FRAD082_IR_00200 - Recensements de population de la ville de Montauban

https://recherche.archives82.fr/document/FRAD082_IR_00199 - Recensements de population du Tarn-et-Garonne.

 

 

 

Inventaire exhaustif des listes nominatives de recensement conservées et/ou numérisées par les Archives départementales, qu’il s’agisse de la collection communale ou de la collection préfectorale.