En août 2024, notre équipe a participé avec succès à l'International Conference on Document Analysis and Recognition (ICDAR 2024) qui s'est tenue à Athènes. En tant que premier rassemblement de la communauté de la vision par ordinateur axé sur la compréhension des documents manuscrits, l'amélioration des connaissances et l'IA pour le patrimoine, l'ICDAR constitue un forum exceptionnel aux chercheurs, aux professionnels et aux institutions pour échanger des idées, présenter des innovations et discuter des dernières avancées dans le domaine.
Lors de la conférence, Chahan, Aliénor, Marie et Boris ont présenté trois exposés complets qui ont mis en lumière nos derniers travaux de recherche sur la préservation du patrimoine et le traitement des écritures orientales. La première présentation a abordé notre projet en cours sur la lecture des inscriptions arméniennes endommagées. Ces textes anciens, souvent altérés par les intempéries et la détérioration au fil des siècles — ou par une destruction intentionnelle, comme nous l’observons actuellement avec les efforts de l’Azerbaïdjan pour détruire le patrimoine arménien — présentent des défis importants pour une lecture précise : les lettres sont ambiguës, parfois illisibles, même pour les spécialistes. Nous avons exploré et discuté du rôle de l’intelligence artificielle dans la détection et le déchiffrement de ces inscriptions. Nos modèles, entraînés sur un large éventail de graffitis et d’inscriptions endommagées datant d’avant le IXe siècle, détectent avec succès jusqu’à 90 % du contenu. Ces résultats offrent aux chercheurs un outil permettant de gagner du temps pour l’analyse des inscriptions. Il s’agit d’une première étape dans l’amélioration de l’accessibilité aux bases de données d’images pour la documentation des inscriptions arméniennes.
L'article: Vidal-Gorène, C., Decours-Perez, A. (2024). Detecting and Deciphering Damaged Medieval Armenian Inscriptions Using YOLO and Vision Transformers. In: Mouchère, H., Zhu, A. (eds) Document Analysis and Recognition – ICDAR 2024 Workshops. ICDAR 2024. Lecture Notes in Computer Science, vol 14936. Springer, Cham. https://doi.org/10.1007/978-3-031-70642-4_2
Dans notre deuxième présentation, Chahan a présenté notre travail pionnier sur la restauration de manuscrits brûlés à l'aide de réseaux génératifs (GAN). Ce projet, mené en collaboration avec l'École nationale des chartes - PSL (Paris), vise à aider à la lecture de documents endommagés et à fournir une restauration visuelle du manuscrit original. Nos expériences ont été menées spécifiquement dans le cadre de la génération de faux manuscrits pour l'entraînement de modèles de reconnaissance de texte manuscrit (HTR). Pour les langues anciennes et rares, le nombre de pages à transcrire manuellement pour obtenir un bon modèle HTR est conséquent, même si des plateformes comme Calfa Vision peuvent considérablement accélérer ce travail. L'utilisation de GAN pour générer des données d'entraînement pour les systèmes de reconnaissance optique de caractères (OCR) est essentielle pour reconnaître des écritures avec des ressources limitées. Nos expériences actuelles montrent un gain de reconnaissance allant jusqu'à 30 % sur de nouvelles mains ou un nouveau vocabulaire.
L'article: Vidal-Gorène, C., Camps, JB. (2024). Image-to-Image Translation Approach for Page Layout Analysis and Artificial Generation of Historical Manuscripts. In: Mouchère, H., Zhu, A. (eds) Document Analysis and Recognition – ICDAR 2024 Workshops. ICDAR 2024. Lecture Notes in Computer Science, vol 14936. Springer, Cham. https://doi.org/10.1007/978-3-031-70642-4_9
Voir aussi: Vidal-Gorène, C., Camps, JB., Clérice, T. (2024). Synthetic Lines from Historical Manuscripts: An Experiment Using GAN and Style Transfer. In: Foresti, G.L., Fusiello, A., Hancock, E. (eds) Image Analysis and Processing - ICIAP 2023 Workshops. ICIAP 2023. Lecture Notes in Computer Science, vol 14366. Springer, Cham. https://doi.org/10.1007/978-3-031-51026-7_40
Notre troisième présentation s'est concentrée sur la tâche de reconnaissance de l'écriture manuscrite chinoise, un système d'écriture réputé pour sa complexité en raison du grand nombre de caractères uniques et d'un ordre de lecture très spécifique. En collaboration avec Marie Bizais-Lillig de l'Université de Strasbourg, et dans le cadre du projet ChiKnowPo (financé par Collex Persée), dont Calfa était partenaire, nous avons exploré différentes stratégies pour améliorer la capacité de l'IA à identifier et interpréter avec précision les caractères chinois manuscrits en utilisant une fois de plus des réseaux génératifs. Grâce à la création d'un ensemble de données spécialisé, le modèle final atteint de bons scores de reconnaissance entre 96% et 99%, et un ordre de lecture correct de 97,81%.
L'article: Bizais-Lillig, M., Vidal-Gorène, C., Dupin, B. (2024). Optimizing HTR and Reading Order Strategies for Chinese Imperial Editions with Few-Shot Learning. In: Mouchère, H., Zhu, A. (eds) Document Analysis and Recognition – ICDAR 2024 Workshops. ICDAR 2024. Lecture Notes in Computer Science, vol 14936. Springer, Cham. https://doi.org/10.1007/978-3-031-70642-4_3
Données et GitHub: tps://github.com/calfa-co/chi-know-po
Au-delà de nos présentations, nous avons eu de nombreuses discussions passionnantes avec d'autres participants, échangeant des idées sur la documentation et la préservation du patrimoine écrit, ainsi que sur les nouvelles approches de pointe en matière de reconnaissance de texte et d'analyse de documents. Nos publications disponibles dans les actes de la conférence documentent non seulement nos avancées, mais fournissent également des référentiels de codes en accès libre, permettant à d'autres membres de la communauté d'utiliser et de développer notre travail.