Besoin d'une information ?

RECHERCHEZ LE CONTENU QUI VOUS INTÉRESSE :
Logo laboratoire

CHIFFOLEAU Floriane

CHIFFOLEAU Floriane

CHIFOLLEAU Floriane

Thèse sous la direction d'Anne Baillot, Université d'Angers.

Débutée le 15/10/2021.

 Faire texte. Reconnaissance optique d’écritures et patrimoine textuel.

Au cours des dernières années, la mise en œuvre d'outils de reconnaissance optique de caractères (OCR), qui permet de transformer une image en un texte lisible par une machine, s'est largement imposée en sciences sociales ainsi que dans les humanités numériques comme moyen à la fois de rassembler des quantités importantes de données et d’accéder à des données jusqu’ici peu accessibles, notamment dans les sciences du patrimoine. Mais obtenir un résultat d’OCR permettant d’y adosser des travaux de recherche reste un défi. Pour générer une transcription, il est nécessaire d’utiliser - ou de réaliser soi-même - des modèles de transcription adaptes, à partir de vérités de terrain, en partant de zéro ou en utilisant un modèle déjà existant auquel on ajoute ces vérités. Le modèle ainsi développé prendra en compte diverses spécificités inhérentes au(x) corpus, afin d’obtenir, avec le logiciel d’OCR choisi, une transcription réussie qui générera moins de corrections post-ocr, un taux d’erreur de reconnaissance minimal et une campagne de transcription plus rapide.

Cette thèse s’inscrit dans la lignée de travaux récents attachés à la production et au partage de vérités de terrain pour améliorer les performances de l’OCR. On partira ici de l’hypothèse que le vocabulaire des vérités de terrain joue un rôle - dont il s’agira de déterminer l’importance - dans l’efficacité de la transcription et les résultats du taux d’erreur de mots. En effet, le modèle apprend à reconnaître les caractères, mais aussi les mots formés par ceux-ci. Un modèle, développé à partir d’un corpus avec un style d’écriture particulier, fonctionnera efficacement sur un autre corpus de même police (pas de grande divergence de la segmentation et des glyphes qui se ressemblent fortement, voire sont les mêmes) et sans affinage, tant que les sujets sont similaires et le vocabulaire utilisé ne diffèrent pas d’un corpus à l’autre.

Publications, interventions non-publiées à des congrès, colloques, journées d'études etc.

  • Alix Chagué, Floriane Chiffoleau. An accessible and transparent pipeline for publishing historical egodocuments. WPIP21 - What's Past is Prologue: The NewsEye International Conference, Mar 2021, Virtual, Austria
  • Floriane Chiffoleau, Anne Baillot, Manon Ovide. A TEI-based publication pipeline for historical egodocuments - the DAHN project. Next Gen TEI, 2021 - TEI Conference and Members’ Meeting, Oct 2021, Virtual, United States
Partagez : FacebookTwitterLinkedInMailImprimez