Une interface de consultation « universelle »

Enjeux

L’originalité de l’Atlas historique de la Nouvelle-Aquitaine repose sur son architecture informatique, complètement nouvelle et très intégrée. L’AHNA-NATM est doté d’une interface d’interrogation puissante, permettant la restitution des connaissances et une navigation transparente, illimitée et intelligemment assistée à travers les données. Cette approche procède des réflexions impulsées par Yannis Delmas (MCF, Poitiers), Jean Pylouster (ingénieur d’études CNRS) et Guillaume Bourgeois (directeur du projet). Elles font l’objet de développements informatiques entamés depuis la fin de l’année 2018 et qui seront en grande partie achevés au cours des années à venir avec l’aide des trois laboratoires d’informatique qui participent au projet pour tout ce qui concerne l’apport en technologies raffinées et notamment l’intelligence artificielle. 

En voici les trois grands éléments :

Le module de connaissances : une vaste plateforme de stockage

Le premier niveau de travail consiste en une chaîne de numérisation et un entrepôt de sources de référence. Tout au long de deux dernières années, les chercheurs de l’AHNA ont procédé, sur leurs divers sites à la numérisation d’écrits imprimés (mémoires, thèses, articles, soit la « littérature grise ») qui ont été océrisés (reconnus par un logiciel d’OCR – reconnaissance optique de caractères) et stockés en texte intégral. Ce travail effectué en interne dans le plus strict respect des principes protecteurs du droit d’auteur suit méticuleusement les directives européennes touchant aux archives ouvertes. Comme nous le disions en 2017, il offre :

« un nouvel aboutissement au travail des générations de chercheurs qui nous ont précédés ».

L’entrepôt hébergé par la TGIR Huma-Num contient déjà plus de 2 000 références (soit 300 millions de caractères) et il est appelé à croître indéfiniment, suivant la production académique. Ce qui a été entrepris à large échelle à Poitiers a servi de modèle pour la BIU de Bordeaux-Montaigne et cette collecte numérique s’étend maintenant vers les lieux de conservation institutionnels, ce dont nous parlerons plus loin.    

Le module d’analyse : là où l’on éclate les informations

Le deuxième niveau est une chaîne de traitement des connaissances visant à les transformer en données interconnectables entre-elles. On procède pour cela à une fouille systématique et automatisée des connaissances stockées dans l’entrepôt. On les sélectionne pour les « raffiner » et pour insérer dans une base de données relationnelle celles qui paraissent sémantiquement pertinentes suivant les choix et analyses décidés au niveau suivant (fouille intelligente de données). Les résultats obtenus sont affectés à des tables regroupant essentiellement des entités nommées (noms propres de personnes et de lieux, institutions…) et des périodes historiques (événements, phénomènes de durée très variable), eux-mêmes modulables et hiérarchisables.  

Le module d’organisation intelligente et de restitution

Le troisième niveau de travail est à la fois composé de l’étage intelligent paramétrant la fouille de données et de la chaîne de restitution à l’usager de sa recherche. Un système d’information reposant sur des méga-contenus, appelés à brasser des méga-données potentiellement extérieures requiert une culture propre à la complexité intrinsèque à ces savoirs. On a longtemps pensé substituer à ces savoirs des jeux de mots-clefs associés aux données mais cette stratégie a fait long feu. Les progrès de l’intelligence artificielle permettent désormais de construire ces savoirs indépendamment des données elles-mêmes et, partant, de se montrer capables d’identifier l’information substantielle, de la trier et de l’interconnecter en prévision des d’interrogations renvoyant à une diversité de contextes historiques. 

De cette richesse de traitement naît la possibilité de créer une interface de consultation « universelle » – utilisable par tout le monde en ce qu’elle est précisément capable de comprendre tout le monde – ayant vocation à mettre en relation non seulement les données propres à la base mais celles contenues dans une multitude de bases voisines traitant de sujets adjacents.

Pour l’utilisateur, le bénéfice de cette interface intelligente est considérable. Il ouvre le dialogue avec une masse d’information de différentes natures : cartes et données cartographiques, faits relatés et métadonnées historiques.