En janvier 2021, nous présentions lors du colloque Armenian through the Ages: Linguistic and Philological Perspectives, organisé par l'université d'Oxford, les derniers développements en reconnaissance des textes manuscrits en arménien et en analyse de texte. Cette présentation conjointe avec notre partenaire GREgORI met en lumière les perspectives offertes par l'intelligence artificielle pour le traitement des collections en arménien et la création rapide et massive de grands corpus interrogeables.
À l'occasion de la parution du premier numéro du journal Armeniaca, nous publions les détails de notre conférence dans un article intitulé "From Manuscript to Tagged Corpora, An Automated Process for Ancient Armenian or Other Under-Resourced Languages of the Christian East".
Nous y introduisons notamment une chaîne de traitement qui permet la reconnaissance rapide d'un texte manuscrit en arménien (96,89% de bonne reconnaissance) avec l'utilisation de notre plateforme Calfa Vision et la couverture de plus de 93% du vocabulaire en analyse de texte. L'article s'intéresse au traitement du manuscrit en bolorgir W541, ainsi qu'à divers documents en arménien, notamment des écrits largement endommagés comme la bible de Zohrab (1805). Nous illustrons ainsi la grande polyvalence de nos modèles, qui se spécialisent sur une tâche donnée avec moins de trois pages manuellement transcrites, limitant considérablement l'investissement humain pour le traitement massif de corpus similaires.
La tâche d'analyse de texte, en collabroation avec GREgORI fait elle appel à une approche hybride inédite reposant sur l'utilisation de dictionnaires et de modèles d'IA. Ces modèles sont progressivement renforcés au fil des textes rencontrés dans nos projets.
Pour en savoir plus : Kindt, B.; Vidal-Gorène, C. (2022). “From Manuscript to Tagged Corpora. An Automated Process for Ancient Armenian or Other Under-Resourced Languages of the Christian East”. Armeniaca. International Journal of Armenian Studies, 1, 73-96. Accéder à l'article (en anglais)