L’océrisation : le secret de la recherche en langage naturel

Numérisation

L’Atlas historique de la Nouvelle-Aquitaine proposera aux utilisateurs d’interroger sa base de données en langage naturel et sera capable de suggérer des explorations de contenus inédites. Pour cela l’AHNA se dote d’un système informatique capable de sélectionner l’information contenue dans des documents initialement enregistrés au format pdf, puis océrisés et pour finir réenregistrés en pdf. La base de données de l’AHNA possédera ainsi des centaines de milliers de pages dont l’ensemble du contenu pourra être interrogé et utilement proposé à l’utilisateur dans le cadre de sa recherche d’information.

Les documents sont enregistrés dans la base de données de l’AHNA au format pdf dont le principal avantage est de ne pas dénaturer ou modifier le document source. Il est en outre assez économe en espace de stockage. Or, s’agissant d’images fixes, les fichiers pdf ne sont pas destinés à la reconnaissance de caractères. Ils doivent être « traduits » en texte par le procédé informatique d’OCR (Optical Character Recognition) ou océrisation. Le logiciel que nous utilisons, transforme l’image d’un caractère en un véritable caractère au format texte (Word, par exemple). Une chaine de caractères devient ainsi un mot, et ainsi de suite. Les possibilités d’assistance à la recherche sont décuplées grâce à la capacité d’interroger l’ensemble des contenus.

Afin de limiter l’espace de stockage et de conserver l’intégrité du document, nous réenregistrons le fichier océrisé au format pdf. Par le génie d el’iformatique, ce nouveau fichier conserve toutes les propriétés attendues d’un fichier océrisé. Nous stockons ce document final, traduit, reconvertit et totalement reconnaissable par le système informatique, dans la base de données de l’Atlas historique de la Nouvelle-Aquitaine.