Comment produire une analyse fine ou micro, des données contenues dans les archives manuscrites ? Pas celles d’un seul département, non ! Celles de toutes les archives départementales de France portant sur les recensements, et cela de 1836 à 1936, soit 20 recensements. 

C’est l’objectif du projet Socface, initié en 2021, qui vise à mettre au point des technologies de traitement à grande échelle de vastes séries de documents historiques. Archivistes, démographes, économistes, historiens et informaticiens œuvrent ensemble à cette fin. 

Les documents visés sont tout d’abord constitués en images. La reconnaissance automatique d’écriture manuscrite permet alors d’analyser l’ensemble des listes nominatives du recensement de 1836 à 1936. Le projet implique la création d’une base de données de tous les individus recensés en France sur cette période. Cette masse d’informations permettra d’analyser de manière fine les dynamiques individuelles et de développer une connaissance micro. 

Les ressources en intelligence du supercalculateur Jean Zay de GENCI, hébergé et opéré par l’IDRIS (CNRS), sont mobilisées et permettront d’améliorer ainsi la compréhension des structures économiques et sociales françaises sur un siècle.

Par ailleurs, les informations disponibles dans les listes nominatives seront diffusées en Open Access, permettant à quiconque de parcourir librement des centaines de millions d’enregistrements.

Christopher Kermorvant, chercheur associé à l’Université de Rouen et CEO de la startup Teklia - qui met notamment au point des technologies de reconnaissance de texte et d’extraction d’informations - participe activement au projet. Il évoque des « ressources incroyables pour connaître l’évolution de mouvements de populations, de l’habitat et plus largement les dynamiques de modes de vie ». Ce travail implique cependant d’aller collecter les images d’archives sur l’ensemble des départements. Ce travail a déjà été réalisé « dans près de 50 départements » précise-t-il. Ce sont 20 à 30 millions d’images qui seront collectées, analysées et passées au peigne des outils de reconnaissance d’écriture manuscrites. 

Les ressources de Jean Zay servent à la mise au point du modèle d’un côté, et au traitement en phase de production.

Il s’agit du plus gros projet en France de reconnaissance automatique d’images historiques. 

Pour en savoir plus sur le projet Socface : https://socface.site.ined.fr/