Outils numériques interactifs pour le déchiffrage de documents manuscrits

Coordinateur :
Thomas Pietrzak, Maître de Conférences, Université de Lille ST, Informatique / Interaction Homme-Machine

 

Résumé :

Les archives possèdent des centaines de kilomètres linéaires de documents de nature diverse. Une étape importante pour la conservation et l’utilisation de ces documents consiste à les numériser dans un premier temps, puis de les déchiffrer dans un second temps. Beaucoup de documents sont difficiles à déchiffrer pour de nombreuses raisons : le document peut être détérioré, ou la numérisation peut être de mauvaise qualité. De plus la plupart des documents sont manuscrits et écrit dans différentes langues. L’évolution des écritures, des langues et des alphabets rend le déchiffrage difficile.

Une approche combinant interaction et traitement automatique, pourrait aider l’utilisateur à déchiffrer des documents manuscrits anciens de manière efficace, sans aide extérieure, mais aussi et surtout à acquérir des compétences dans le domaine.

Nous proposons dans un premier temps de concevoir, implémenter et évaluer un outil utilisant à la fois les capacités de l’humain et les capacités de la machine pour comprendre des documents manuscrits anciens. Cet outil utilisera au besoin d’algorithmes de traitement d’image et de classification, mais la tâche sera réalisée de manière interactive. L’objectif sera atteint si l’utilisateur arrive à la fois à réussir sa tâche et à acquérir des compétences, tout en minimisant la part d’opérations répétitives.
Un objectif plus lointain serait aussi de pouvoir rendre cet outil disponible aux communautés concernées, par exemple au moyen d’une application web/cloud afin que des utilisateurs puissent traiter et publier leurs documents annotés, en consulter, et enrichir les données et connaissances utiles au déchiffrage d’autres documents ainsi que leur expertise et les connaissances en la matière.