Reconnaissance optique de caractère et création des corpus

Les enjeux de l'AHNA

À partir des documents primaires, soit les fichiers issus de la numérisation de la littérature grise, nous nous livrons à une reconnaissance optique de caractères qui les transforme en fichiers textes. Les textes sont ensuite lus par des logiciels-robots capables d’identifier les mots-clés pertinents, à savoir les descripteurs classiques de l’économie, du social, de la politique… Il nous importe autant de savoir où l’on parle de moulins à vent, de tramways, de députés que d’écoles ou de végétation… Ces expressions clés nous permettent de repérer automatiquement les zones concernant factuellement les sujets qui nous importent. Nous procédons sur chacune de ces zones à une vérification manuelle, et nous indexons au fur et à mesure l’information synthétisée en tant que donnée dans notre base. De la même façon que nous créons des corpus d’événements et objets, nous créons un corpus de noms propres. Cette numérisation massive de la littérature grise nous permettra de passer du niveau de l’information historique contextualisée [dans le cadre d’une présentation linéaire, inscrite dans un cadre d’analyse possédant sa propre dimension démonstrative] à celui de la donnée brute, autonome vis-à-vis de son contexte d’écriture. Nous bâtissons parallèlement une plateforme informatique capable de « re-contextualiser » les données entre-elles et d’enrichir leur structuration intelligente afin de pouvoir naviguer en leur sein.