Tous les billets avec l'étiquette informatique documentaire

Famille de figues sur une table rouillée par une nuit d’été © Photo Myriam Pauillac

Présentation du moteur de recherche Bach

Dans un billet précédent, nous avions présenté les travaux de bibliothécaires et chercheurs qui ont abouti à une nouvelle génération de moteurs de recherche.
Il était, bien entendu, tentant de s’inspirer de ces travaux et d’utiliser les outils disponibles pour élaborer un moteur de type nouveau pour les archives.
Un certain nombre de questions se posait, compte tenu des spécificités de la description archivistique – description à plusieurs niveaux principalement – et des options étaient à prendre pour obtenir, dans un contexte plus complexe que celui des bibliothèques, des résultats satisfaisants et nettement plus pertinents que ceux des différents moteurs existants.
Après plus de deux années de définition du projet, de développements, de tests et d’ajustements, il est temps de présenter Bach, moteur de recherche de nouvelle génération développé au sein de la société Anaphore.

Rappel sur les principales caractéristiques des moteurs de recherche de troisième génération

On se rapportera, bien entendu, au post déjà cité et, mieux encore, à l’ouvrage qu’il s’est contenté de résumer très partiellement [1].
Nous rappelons rapidement les principales caractéristiques de ces moteurs.

A. Un principe de base

Le modèle booléen – qui a été utilisé jusqu’à présent, et est encore utilisé – présente un certain nombre de limites en recherchant une correspondance exacte entre les termes d’une requête et les termes présents dans les descriptions disponibles.
Un nouveau modèle, dit vectoriel, utilise un mécanisme de recherche de correspondance optimale (et non pas exacte) entre ces deux catégories de termes.
De plus, des algorithmes élaborés de calcul de pertinence permettent de classer les réponses.
Grâce à ces deux mécanismes, ces moteurs permettent d’avoir des réponses – pertinentes – qu’un moteur de précédente génération n’aurait pas retournées. Et les réponses les plus intéressantes sont présentées en tête de liste.
La requête commence donc généralement par la saisie d’un ou plusieurs termes. Ce mode de recherche correspond aux habitudes prises par les internautes avec les moteurs grand public. Et il n’est plus nécessaire de maîtriser un langage de requête ni l’utilisation des opérateurs booléens.

B. Des suggestions de termes

En cours de saisie des termes d’interrogation et après validation de la recherche, le moteur suggère des termes possibles pour la requête.

C. Des outils linguistiques

Ces moteurs intègrent généralement des outils qui permettent de remédier aux fautes de saisie (tolérance orthographique), de prendre en compte les différentes flexions d’un mot (masculin-féminin, singulier-pluriel, conjugaison des verbes), les dérivés (noms-adjectifs), de gérer la synonymie…

D. Un affinage des réponses intuitif et par étapes

Dans le cas où les réponses retournées par la requête initiale sont nombreuses, il est possible de les affiner progressivement et intuitivement, grâce à des « facettes » (ou filtres). Celles-ci peuvent être textuelles ou graphiques.

Les spécificités archivistiques

Elles sont de plusieurs ordres et complexifient notre problématique.

A. La description à plusieurs niveaux

Le principe de description à plusieurs niveaux, qui aboutit à la production d’instruments de recherche hiérarchisés, a plusieurs conséquences, principalement sur la recherche par le moteur et sur la façon de restituer les résultats.

1. Sur le fonctionnement du moteur

Les bibliothécaires mettent principalement à disposition de leurs publics des notices catalographiques. Certes, ils peuvent également produire, par exemple, des catalogues thématiques regroupant de nombreuses notices organisées par rubriques. Mais, dans tous les cas, chaque notice contient l’ensemble des éléments nécessaires à la description d’un ouvrage ou de tout autre document.
Dans la pratique archivistique, la description à plusieurs niveaux est de nature différente : chaque niveau ne dit généralement pas tout de la ressource décrite. En effet, sauf au niveau de description le plus haut, une partie des informations descriptives qui permettent d’appréhender cette ressource est consignée dans une ou plus d’une ressource parente. Une description, au niveau le plus bas, peut, par exemple, se limiter à une année. Cela pose, on le comprend, un problème a priori pour la recherche. Pour que le moteur fonctionne, il va falloir gérer l’héritage des informations descriptives pertinentes d’un niveau parent à ses enfants. Mais, il faut que cet héritage soit géré le plus intelligemment possible. Sans héritage, on génère énormément de silence. Avec trop d’héritage on obtiendra beaucoup de bruit. Dans tous les cas, cet héritage ne pourra fonctionner correctement que si la conception, en amont, des instruments de recherche, a été faite de manière intelligente.

2. Sur la présentation des résultats

Les moteurs de recherche des bibliothèques présentent les résultats d’une requête sous forme de liste simple.
Faut-il faire de même pour les archives ou présenter les résultats dans leur contexte organique ? Question importante et la réponse que l’on pourrait donner dépend de qui la donne. On ne caricature pas trop si l’on dit que souvent l’archiviste souhaitera la réponse dans son contexte alors que le public en général, même averti, sera perdu si on ne lui présente pas une simple liste des documents qu’il attend [2].
Les éditeurs de moteurs pour les archives ont généralement privilégié la présentation des résultats dans le contexte. Nous avons pu constater, en interrogeant de nombreux utilisateurs, que cette présentation est considérée comme hermétique.[3] Il faut revenir quelques instants sur la distinction que nous avions soulignée, dans un autre billet, entre données et document pour les descriptions archivistiques. Les moteurs de recherche fonctionnent en mode données et les instruments de recherche sont des documents et ne sont pas optimisés pour leur fonctionnement.

B. La diversité des ressources, de leur description, de leur indexation

Les moteurs pour les bibliothèques fournissent un accès à différents types de ressources : ouvrages, photographies, documents audiovisuels… Mais, ces différents documents sont décrits suivant des règles bien définies.
Pour les archives, les corpus – ensembles de ressources – comprennent les différents types de documents ci-dessus mais, potentiellement, pour toutes époques, toute origines (publiques, privées) concernant tous les domaines de l’activité humaine. Dans ce contexte, les règles de description des documents d’archives sont nettement moins formalisées que pour les bibliothèques, les modes d’indexation peuvent être adaptés aux différentes catégories de documents, tant pour leur forme que pour leur contenu.
Cette diversité des organisations des descriptions et des descripteurs qui servent de facettes complexifie la mise en œuvre des moteurs.

C. L’immensité de la tâche

Les services généralistes sont confrontés à des masses considérables de documents à traiter, avec des ressources humaines insuffisantes. Les descriptions ont été faites à des époques différentes, suivant des méthodes distinctes (la généralisation des normes de description ne date guère de plus d’une décennie), avec des outils souvent mal adaptés. Il s’ensuit une grande hétérogénéité des inventaires qui handicape leur mise en ligne.

Les choix effectués pour Bach

A. Les fonctions des moteurs de troisième génération

Malgré les difficultés prévisibles liées à la spécificité des descriptions d’archives, le pari d’Anaphore a été de mettre les caractéristiques des moteurs de troisième génération, rappelées ci-dessus, au service des descriptions d’archives.
Le moteur est d’abord à destination des publics, qui ont besoin de simplicité, d’intuitivité, d’outils graphiques et qui sont habitués aux moteurs de recherche grand public et commerciaux.
Pour autant, les spécialistes, en particulier les archivistes, ne devaient pas être oubliés et donc disposer de fonctions puissantes.

B. Recherche et navigation

Cette question est, on l’a vu, liée à la spécificité des descriptions d’archives.
Dans la pratique, on peut avoir besoin d’obtenir une réponse précise à une requête précise mais on peut également souhaiter partir à la découverte des ressources disponibles dans un fonds d’archives, voire un ensemble de fonds.
Bach veut offrir à la fois des possibilités de recherche simple et efficace qui conduisent à une liste de résultats et des possibilités de navigation grâce à une présentation structurée des instruments de recherche.
Si l’expérience passée nous a montré que vouloir imposer aux publics une fusion de la recherche et de la navigation aboutissait à des échecs, on doit pouvoir alterner et même associer simplement recherche et navigation.

Principales fonctions de Bach

A. La recherche

1. Une recherche textuelle intuitive et assistée

Ci-dessous quelques exemples de tolérance orthographique + flexions ou suggestions.

tolerence orthographique

 
clic sur le terme suggéré

Un clic sur le terme suggéré relance la recherche.

tolerence orthographique

 

2. Un affinement de la requête par les facettes

Une requête est lancée sur deux termes filature et soie.

requete lancée sur filature et soie

On peut, par exemple, filtrer sur la facette Catégorie avec archives d’entreprises.

filtrage sur la facette Categorie

Le filtre sélectionné s’affiche comme filtre actif et il est possible de le désélectionner si les résultats ne nous conviennent pas.
 

3. Des facettes visuelles

En complément des facettes textuelles, on peut disposer de facettes graphiques : cartographiques et chronologiques.
Par exemple, une carte permet à la fois de localiser les réponses et de filtrer.

la carte localisation et filtrage

Une frise chronologique permet à la fois d’avoir une idée des périodes les mieux représentées et de filtrer sur une période choisie.

frise chronologique

Le fait de draguer une zone sur l’histogramme chronologique a pour effet de préciser la requête. Le nombre de réponses passe de 29 à 15.
Il faut noter que les facettes s’ajustent automatiquement. On voit, par exemple, que la facette Producteur passe de 16 à 10 éléments (il n’y a plus « Afficher plus »).

preciser la requete
 

4. La présentation des résultats de recherche

Bach présente les résultats de la manière la plus simple possible, sous forme d’une liste.
Plusieurs présentations sont possibles. Par défaut, il s’agit d’une liste comportant :

  • Le contexte éventuel (niveaux parents) de la ressource. Ces différents niveaux sont cliquables.
  • Les principaux éléments de description, en particulier l’intitulé ou titre de la ressource.
  • Les descripteurs éventuels, cliquables.
  • Un lien vers une fenêtre affichant le détail de la description (il suffit de cliquer sur le titre de la description).
  • Un lien (Situer dans l’arborescence) donnant accès à l’instrument de recherche
  • Un lien vers un ou plus d’un document numérique, s’il en existe.

mode de presentation des resultats

Ce mode de présentation des résultats par liste permet d’avoir les informations essentielles de manière synthétique. Et, de plus, les détails, les documents numérisés, l’inventaire… tout est accessible par un seul clic.

D’autres modes de présentation des résultats sont possibles, comme les listes sans vignettes ou les mosaïques d’images.

autre mode de presentation
 

5. Le tri des résultats

Par défaut, les réponses sont toujours triées par pertinence. Cette notion de pertinence correspond ici à une réalité, compte tenu du fonctionnement même du moteur. Par exemple, une interrogation halle aubais renverra toutes les descriptions comportant soit halle (ou halles) soit Aubais, soit les deux, mais les descriptions contenant les deux seront affichées en premier.

tri des resultats

D’autres modes de tri sont proposés : alphabétique, chronologique et suivant la logique de l’inventaire (nous allons revenir sur ce dernier point).

6. Le mode booléen n’est pas interdit

Notons, par parenthèses, que l’emploi des opérateurs booléens reste possible pour les habitués. Le modèle booléen reste donc accessible, tout en conservant l’avantage de la tolérance orthographique, comme le montre l’exemple suivant.

mode booleen accessible

 

B. La navigation dans les inventaires

Bach offre un accès au cadre de classement, s’il existe, et aux instruments de recherche. Ces derniers sont accessibles par le cadre de classement et par les réponses (liste ou détail).
Il est ainsi possible de naviguer, à partir du cadre de classement ; de situer une réponse à une requête dans son contexte et de poursuivre, ainsi, une recherche par une navigation. Il est également possible, lorsque l’on est sur un inventaire, de lancer une requête. Celle-ci est alors lancée dans l’instrument de recherche correspondant. On revient alors sur la fenêtre de recherche et il est possible de lancer de nouvelles requêtes.
Ci-dessous un exemple de boucle de ce type.
On lance une requête précise, à l’aide d’une expression.

lancement d'une requête précise

On obtient une réponse unique.
On clique sur « Situer dans l’arborescence ». L’instrument de recherche hiérarchique s’ouvre ; la description correspondante se trouvant en haut de l’affichage et surlignée.

résultat clic situer dans l'arborescence

Un clic sur la ligne surlignée (ou sur toute autre) affiche le détail de la description.
Ce qui nous intéresse ici, c’est la zone de recherche.
Saisissons une requête.

saisie de la requete

En validant, nous nous retrouvons sur la fenêtre de recherche. Nous pouvons faire plusieurs remarques.

  • Les réponses se situent toutes dans l’instrument de recherche d’origine, ce que confirme le filtre actif.
  • Le nombre de réponses est important (369) puisque les descriptions contenant porte(s) ou château sont prises en compte.
  • Les réponses contenant à la fois château et porte viennent en premier.
  • Parmi celles-ci, celles qui concernent la commune de Portes viennent avant, par exemple, celle concernant la porte du château d’Aubais, du fait d’un calcul de pertinence efficace.

fenetre de recherche

Un moteur pour les archives et les archivistes

On a compris que d’importants efforts ont été faits en direction des publics finals qui doivent être les principaux utilisateurs du moteur.
Toutefois, Bach est un moteur de recherche pour les descriptions d’archives qui prend en compte les spécificités du domaine archivistique. Nous avons déjà évoqué les principales caractéristiques archivistiques de ce moteur. Nous allons les récapituler et les compléter.

Les listes de réponses situent chaque occurrence dans son contexte hiérarchique, présenté en haut de la réponse.

liste de réponses

Les réponses détaillées présentent également les niveaux parents et les niveaux enfants (quand ils existent) d’un niveau donné.

réponse détaillée

L’accès à l’instrument de recherche complet se fait aussi bien à partir de la liste que du détail des réponses.

Les facettes peuvent, bien entendu, être « archivistiques », comme dans l’exemple ci-dessous.

facettes archivistiques

Le classement des réponses suivant l’ordre de l’inventaire. Les réponses à une requête sont alors classées suivant l’ordre dans lequel les descriptions se trouvent dans l’instrument de recherche.

La notion de niveau. Le terme sera peut-être à reprendre. Un instrument de recherche est généralement constitué d’une description de niveau haut (par exemple fonds), de descriptions de niveaux intermédiaires (par exemple groupes de documents) et de descriptions de niveau bas (par exemple dossiers ou pièces). Dans une liste de réponses, on peut avoir des descriptions correspondant à ces différents niveaux.
Dans l’exemple ci-dessous, la première description correspond à l’ensemble de l’instrument de recherche, la deuxième au premier titre de niveau 1, la troisième au premier titre de niveau 2, la quatrième au premier article.
On voit aussi que la facette niveau indique qu’il existe une description pour l’ensemble, 381 pour des groupes de documents et 2.817 pour les documents (ici, des pièces).

facette niveau

En filtrant sur « document », on n’a que les descriptions des pièces.

filtre document

Les recherches nominatives

Bach a été conçu non seulement pour exploiter les instruments de recherche archivistiques conçus suivant la norme ISAD(G) et la DTD EAD, mais aussi pour les recherches dans des bases de données nominatives.
Un onglet permet de chercher dans les registres matricules militaires.

A. Principe de recherche

Le même principe de recherche simple par texte a été retenu, avec une zone unique de saisie. Si l’on saisit, par exemple, « jean bernard » qui sont tous les deux à la fois des prénoms et des noms très courants, on obtient de nombreuses réponses (5.082), mais celles qui contiennent à la fois Jean et Bernard comme nom et prénom viennent en premier.
Des facettes Nom, Prénom, Classe et Lieu de naissance permettent, si nécessaire, d’affiner les requêtes.

registre matricule

On peut, ici aussi, fonctionner en mode booléen en saisissant, par exemple « jean AND bernard ». Le nombre de réponses est effectivement plus réduit (25).

Notons que l’on peut aussi utiliser Bach pour faire des statistiques sur les occurrences de noms. En cherchant toutes les réponses, on obtient, dans cette base, 60.798 réponses. Grâce aux facettes, on voit d’emblée les 10 noms les plus fréquents.

facette nom

En cliquant sur « Afficher plus », on obtient l’ensemble des noms, par défaut dans l’ordre alphabétique et que l’on peut classez par occurrences.

ensemble des noms par nombre d'occurrence

Une zone de recherche permet de filtrer sur un ou plus d’un nom

zone de recherche
 

B. Affichage des résultats

Les résultats des recherches sont ici affichés sous la forme d’un simple tableau à colonnes.
La première colonne affiche une icône page qui permet d’ouvrir la description complète correspondant à la ligne.
La deuxième colonne, avec une icône appareil photo donne accès à la visionneuse d’images.
Ici encore, notre objectif a été de limiter le plus possible les clics nécessaires pour arriver à l’information recherchée.

Et maintenant ?

Après plus de deux années de travail, nous disposons maintenant d’une version bien élaborée de Bach. Plusieurs mises en ligne auraient déjà dû avoir lieu, Anaphore étant prête, mais les services commanditaires ont pris un peu de retard pour diverses raisons.
Bach et la visionneuse d’image qui l’accompagne sont des outils open source. Anaphore a prévu de mettre ces sources à disposition très bientôt.
Bien entendu, Bach continuera à évoluer grâce aux développements réalisés chez Anaphore et, peut-être, par d’autres.
Toutes vos remarques, critiques et suggestions seront les bienvenues.

Un petit site de présentation de Bach est disponible. Cette présentation donne accès à une application de démonstration avec seulement un instrument de recherche et une base de données « registres matricules ». Nous tenons à remercier les archives départementales du Gard et de Vaucluse pour nous avoir autorisés à monter certaines de leurs données qui ne sont pas encore officiellement diffusées.

Bach est le résultat de l’expérience et des réalisations accumulées par Anaphore au cours de plus de 20 ans au service des archives et des archivistes.
Bach, tel qu’il est aujourd’hui, a nécessité de nombreuses heures de conception, de développement, de tests, d’ajustements.
Le développement a été commencé par cinq élèves-ingénieurs de l’école Nancy Télécom (ex ESIAL) pendant l’année universitaire 2012-2013.
Johan Cwiklinski a repris le projet à partir d’avril 2013 et a réalisé une très grande partie des développements.
Vincent Fleurette et Sébastien Chaptal, jeunes développeurs, travaillent désormais également sur Bach.

Et, l’histoire continue…


  1. Catalogue 2.0 : The future of the library catalogue. Edited by Sally Chambers. Facet Publishing, 2013. ISBN 978-1-85604-716-6
  2. On pourra revenir, à ce sujet, sur le billet La description archivistique à l’ère du numérique – Part 1 et au commentaire : « Il faut avoir fait l’école des Chartes pour utiliser ça ! »
  3. Dans le même billet, nous avions aussi cité Eric Lease Morgan pour lequel l’instrument de recherche impose un point de vue propre à l’archiviste.
Arènes loties d'Arles par J.B. Guibert - 18e siècle via Wikimedia Commons

Les travaux récents d’Anaphore

Les textes précédemment publiés sur ce blog rendaient principalement compte d’une partie du travail de veille d’Anaphore.
Mais, l’activité d’Anaphore ne se limite pas à la veille. Des chantiers, nombreux et importants, sont conduits, les uns déjà terminés, d’autres en cours. Ces chantiers ne sont pas, bien entendu, sans rapport avec ce travail de veille et les liens entre les différentes composantes de notre activité devraient progressivement apparaitre clairement.
Ce blog doit aussi rendre compte de nos travaux. Ce premier texte va en faire une présentation globale et partielle. Par la suite, nous aurons l’occasion de présenter plus en détail ces différents chantiers.

Des évolutions nécessaires

Arkhéïa et Anaphore sont au service des archivistes et des archives depuis plus de deux décennies. Le temps d’accumuler des expériences et de voir des contextes évoluer. Contexte technique, contexte administratif, contexte concurrentiel… qu’il faut prendre en compte. Mais, Anaphore n’entend pas se contenter de s’adapter à ces changements, elle tient également à anticiper des évolutions encore plus fondamentales dont vont bénéficier les métiers d’accès à l’information. Et c’est à cet égard, en particulier, que le travail de veille est essentiel.

Des évolutions dans plusieurs directions

Nous travaillons sur l’interface et l’ergonomie d’Arkhéïa, en particulier le module Thésaurus et les modules de gestion.
De nombreux travaux sont en cours concernant les descriptions de documents d’archives. Anaphore a consacré de nombreuses années à offrir la possibilité de saisir tous types d’instruments de recherche sur tous types de documents, sans pour autant négliger les possibilités de restitution de ces instruments de recherche. Les travaux plus récents portent particulièrement sur ces possibilités de restitution.

L’interface d’Arkhéïa

Anaphore a fait appel à une agence spécialisée dans le graphisme et l’ergonomie (La Souris verte) afin de mettre au point une nouvelle interface pour Arkhéïa. Il s’agissait de disposer d’une présentation plus agréable, plus moderne, mais aussi plus ergonomique, plus intuitive.
L’agence a proposé une architecture plus fonctionnelle des fenêtres, des menus et boutons ; des icônes ont été spécifiquement dessinées.
C’est donc un travail de refonte qui a été entrepris, un chantier de longue haleine. Actuellement, les petits modules Accueil, Paramétrage et Acteurs sont fonctionnels. Le module Récolement est en phase d’achèvement et le module Thésaurus est bien avancé.
Le module Récolement déconnecté, qui a été utilisé et très apprécié par les archives départementales du Gard à l’occasion de leur déménagement, a également été refondu depuis.

Ci-dessous, un exemple de la nouvelle interface avec le module Thésaurus.
InterfaceThesaurus

La restitution des instruments de recherche

Les instruments de recherche sont parmi les productions à plus grande valeur ajoutée des archivistes qui leur consacrent beaucoup de leurs compétences, de leur temps et de leur énergie. Il est essentiel que les résultats soient lisibles, compréhensibles et, autant que possible, agréables !
Anaphore attache une grande importance à la qualité des instruments de recherche. Il ne faut pas, ce qui est malheureusement souvent le cas, qu’informatisation rime avec appauvrissement. Car la mise en ligne d’instruments de recherche électroniques présente souvent des limites : la navigation peut être laborieuse, on a difficilement une vue et une compréhension globales du fonds… ; et, pour autant, les performances et l’ergonomie des recherches ne sont pas optimisées.

A.  Des possibilités d’impression de grande qualité

Nous avons déjà présenté ici les possibilités de génération de fichiers directement imprimables. Disponible depuis la fin de l’année 2013, cette fonction a été largement adoptée, et parfois avec un certain enthousiasme.

B.  Une nouvelle page HTML

Tous les instruments de recherche ne peuvent pas être imprimés, ni même ne méritent de l’être. Internet est indubitablement aujourd’hui un moyen de diffusion privilégié.
Notre objectif était donc de permettre la consultation en ligne de véritables instruments de recherche. En 2011, Anaphore avait déjà produit un export HTML de qualité avec l’aide d’une agence web (Glanum). En 2014, un nouveau chantier a été lancé pour une nouvelle présentation des instruments de recherche. La feuille de route étant, en particulier, la suivante :

  • Permettre l’affichage à l’écran de l’ensemble d’un instrument de recherche (et pas seulement d’une petite partie à la fois) afin de pouvoir le faire défiler.
  • Obtenir une présentation lisible, agréable, adaptée à l’écran et moderne.
  • Réduire considérablement le poids de la page, malgré les contraintes ci-dessus afin d’offrir des temps de chargement courts.
  • Adapter automatiquement l’affichage à tout type d’appareil, dont les tablettes et même les smartphones (on dit web adaptatif ou responsive web design).
  • Optimiser le référencement des informations contenues dans les instruments de recherche.

ExportHTML

La recherche dans les instruments de recherche

Nous avons eu l’occasion de présenter, dans ce blog, les principales caractéristiques des moteurs de recherche de troisième génération conçus pour les bibliothèques. Ces caractéristiques sont également très intéressantes pour les instruments de recherche archivistiques. Toutefois, leur adaptation ne va pas de soi et nécessite une très bonne connaissance des problématiques, une réflexion approfondie et une stratégie fine, compte tenu de la grande complexité de cette question (description et indexation à niveaux avec gestion de l’héritage, variabilité des métadonnées descriptives versus la régularité pour les bibliothèques…).
Anaphore n’avait pas pris directement en charge le développement de logiciels de recherche et de navigation, mais est à l’origine des premières réalisations pour les archives (ActionArchives et Pleade).
Le moteur Bach, aujourd’hui opérationnel, bénéficie de toutes ces réflexions et expériences, ainsi que de longs mois de développements. Il offre des fonctionnalités et une ergonomie totalement inédites pour l’interrogation de nos instruments de recherche archivistiques.
Bach

Vers le web sémantique

D’une part, le mouvement vers les données liées est inexorablement en marche. Les grandes bibliothèques s’y sont résolument engagées, comme la Bibliothèque nationale de France (BNF). C’est aussi le cas, en France, de l’Agence bibliographique de l’enseignement supérieur (ABES).
Pour les archives, l’intérêt du web des données est largement aussi vif que dans le cas des bibliothèques (voir, par exemple la présentation d’Anila Angjeli au congrès annuel 2012 de la SAA).

D’autre part, après les bibliothécaires (avec les modèles FRBR, FRAD…) et bien d’autres, les archivistes sont conscients de l’impérieuse nécessité d’un modèle global. Voir, par exemple, les travaux du Conseil international des archives sur la révision des normes de description et l’élaboration d’un modèle conceptuel pour les archives.
En effet, pour diverses raisons historiques (qu’il n’est pas question de remettre en cause), les choses ont été un peu faites à l’envers en commençant par rédiger des normes, par établir des formats standard et par produire des outils informatiques, sans avoir une vision globale des entités concernées par nos descriptions et sans avoir explicité les relations qu’elles entretiennent entre elles.
Pour Anaphore, il ne serait pas raisonnable, aujourd’hui, d’envisager l’avenir et de faire évoluer les logiciels de description sans cette vue globale.
Anaphore s’est beaucoup documentée sur ces questions, a étudié plusieurs modèles ou ontologies (Europeana Date Model, Locah-Liking Lives, Salda, Finnish Conceptual Model for Archival Description, l’ontologie de l’APUG à Rome…) et suit de près les travaux sur l’évolution des formats (schémas EAC, EAD 3, Nomina…) et ceux du Conseil international des archives.
Néanmoins, pour ses besoins internes et afin de faire évoluer ses outils d’une manière cohérente et tournée vers l’avenir, Anaphore a travaillé, en collaboration avec Sparna à l’élaboration d’un modèle conceptuel pour décrire les fonds d’archives. Notons qu’Anaphore a pris le parti de nommer les classes et propriétés en français.
Ontologie2

Nous vous donnons rendez-vous sur notre blog où nous développerons les points abordés ci-dessus. À bientôt.

Numérisation et informatisation (Part II)
Entre codification des contenus et informatisation des processus

Notre billet précédent présentait, en introduction, « raison graphique » et « raison computationnelle ». Il s’agissait, dans cette première expression, de fixer un cadre discursif pour les questions et hypothèses qui vont suivre.

Revenons tout d’abord sur le titre « Numérisation et informatisation » proposé pour ces billets et sur lequel nous ne nous sommes que peu attardés jusqu’à maintenant. De quoi s’agit-il ici ? En effet, lorsque, dans notre métier, nous parlons de numérisation, nous nous référons le plus souvent soit aux campagnes de transformation de documents papiers en images numériques, soit à la transformation d’instruments de recherche en objet numérique en vue de leur encodage dans un format normalisé.

Numérisation

Nous aimerions ici revenir sur l’essence même du terme numérisation et des implications qu’il induit. Lorsque que l’on numérise, on réduit un objet réel en un ensemble de nombres pour le rendre manipulable par une machine informatique. En d’autres termes, numériser consiste à construire une représentation discrète (ou discrétisation) d’un objet rendu manipulable (ou manipulation). De ce fait, comme l’explique Bachimont, le numérique possède deux propriétés essentielles : « la manipulation machinale », dans le sens où tout contenu codé ou discrétisé devient manipulable par une machine ou un programme ; « l’arbitraire sémantique, puisque la discrétisation aboutit à un code indépendant du sens et de la nature du contenu numérisé. » Le numérique étant, en conséquence, le résultat d’un processus à la fois « calculatoire et arbitraire par rapport à l’interprétation et à l’exploitation » du contenu ainsi représenté. À plus forte raison, il implique la nécessité d’une posture intellectuelle particulière parce qu’il transforme notre rapport aux contenus mais aussi notre manière de les élaborer et de les exploiter. [1]

Le numérique, dans le contexte de nos échanges au quotidien, et le numérique, comme intermédiation pour l’accès aux contenus culturels et intellectuels, relève de plusieurs logiques proposées par les termes « informatisation » et « numérisation ». L’informatisation s’inscrit dans une démarche de modélisation à des fins opérationnelles, cette démarche porte sur les processus. La numérisation, comme nous venons de le voir concerne la codification des contenus.

Informatisation

Informatiser un service d’archives (ceci étant valable pour n’importe quel domaine) suppose « une étude préalable des processus à prendre en compte, la conception de solutions pour mimer les étapes de ces processus et, autant que possible, les optimiser, puis la réalisation d’une solution logicielle pour répondre à ces besoins. Dans le cas des archives, les processus sont nombreux, les pratiques très variées suivant les types de services et donc les besoins à prendre en compte également. »[2]

Dans le cadre de l’informatisation des services d’archives, plusieurs volets sont donc à prendre en compte :

  • un premier vise à permettre le suivi de la gestion matérielle des documents, c’est-à-dire, le suivi du déplacement des documents de l’entrée au service des archives à leur communication éventuelle en salle de lecture. Cette démarche relève de ce que l’on nomme communément l’informatique de gestion.
  • un second consiste à « identifier et expliquer le contexte et le contenu des documents d’archives en vue de faciliter leur accès »[3]. Il s’agit ici du traitement intellectuel des contenus. Démarche moins souvent explicitée, qui relève de l’informatique documentaire.

Dans le contexte de l’accès aux contenus archivistiques, on pourrait effectivement parler d’un troisième volet découlant du deuxième, celui de la mise en ligne, c’est-à-dire de la conception des outils de médiation et d’accès aux contenus pour les professionnels et les publics.

En amont de ces volets on trouve la collecte qui, quant à elle, relève autant de l’informatique de gestion que de l’informatique documentaire puisqu’il s’agit à la fois de suivre le parcours matériel des documents mais aussi d’en consigner le contenu afin d’en planifier le traitement dans le temps. L’informatisation procède donc bien d’une « démarche théorique où l’on pense un processus pour ensuite le construire, la numérisation d’une démarche pratique où l’on réalise un objet technique pour ensuite comprendre ses possibilités. »[4]

La démarche de l’informatisation continue de s’imposer pour ce qui concerne la gestion matérielle des documents, en d’autres termes la modélisation du processus métier.

On pourrait se risquer à dire que, jusqu’à l’émergence, voire la prise en considération réelle par les archivistes des normes puis des formats standard de la description archivistique, l’informatisation de la description des contenus, c’est-à-dire, de la production des métadonnées descriptives, s’est bornée à reproduire avec l’informatique ce que faisait l’archiviste manuellement pour classer et rédiger ses instruments de recherche. D’abord par la production manuscrite, puis avec le dactylogramme pour les faire imprimer et ensuite par l’usage du traitement texte. L’inventaire ainsi produit était pensé pour et par lui-même, de l’introduction à l’élaboration du sommaire et de l’index.

L’avènement des normes, l’évolution des formats et le mouvement vers une convergence numérique, tant pour la production des contenus que pour leur consultation par les publics, a produit, petit à petit, un basculement de la pratique vers une toute autre démarche, celle que nous supposons produite par ce que Bruno Bachimont a nommé la raison computationnelle.

Raison graphique, raison computationnelle

Pour rappel, la raison graphique repose sur le principe que la parole a été inscrite sur un support matériel entraînant l’introduction des deux éléments fondamentaux que sont la permanence et la spatialité. Éléments essentiels à une construction rationnelle nouvelle, c’est-à-dire à l’émergence d’une structure de signification donnant à voir et à comprendre une rationalité inexprimable par la seule parole (tableau à deux dimensions).

Ainsi, « toute structure rationnelle devant reposer en son principe sur un support matériel, permanent et spatial », la raison computationnelle, pour sa part, nous confronte à un nouveau type de support, un support dynamique dont la synthèse est calculée.

En fixant un rapport dans le temps, le calcul donne comme virtuellement présent ce qui ne l’est pas encore, ce qui le sera au terme du calcul. Le calcul est par conséquent un nouveau mode d’être ensemble… [5]

En conséquence, l’informatique en tant que nouveau « mode d’être ensemble » fait émerger de nouvelles structures conceptuelles. Sans en connaître encore toutes les ramifications – nous ne sommes en effet qu’au début de ce nouveau rapport –  il est néanmoins possible de tirer quelques observations pour ce qui est du propos qui nous intéresse, à savoir la production d’instruments de recherche normalisés.

En effet, partant du postulat proposé par Bruno Bachimont, on pourrait interroger l’hypothèse d’une modification de nos modes de pensée en termes de production et de mise en œuvre de nos instruments de recherche dans le nouveau contexte de médiation que constitue le numérique.

De l’instrument de recherche isolé au corpus d’instruments de recherche

Le tableau ci-après propose quelques éléments intéressant ce nouveau contexte de production.

Un processus de production nécessaire

Notre propos ici est d’émettre l’hypothèse que, peut-être, la prise en compte, dans le processus de production, des divers éléments proposés dans ce tableau, a pu affecter et donc faire évoluer notre rapport à la production. La prise en compte de la notion de corpus, nous « forçant » à penser au-delà du seul instrument de recherche produit isolément pour et par lui-même mais plutôt en relation avec l’ensemble des autres existants ou à venir pour donner corps à ce que l’on pourrait appeler « une unité électronique objectivable », c’est-à-dire un ensemble numérique qui ferait sens comme structure informationnelle rendue réelle et effective par la virtualisation.

L’idée étant de souligner ici que c’est le processus lui-même qui engendre la modification de notre rapport au processus-même de production. C’est parce que l’on serait confronté au « faire » que notre rapport au processus de production serait modifié et, en conséquence, à même d’évoluer dans une nouvelle rationalité dynamique et calculée parce que laissant émerger des rapports jusque là insoupçonnés.

Ainsi, on a pu voir émerger la nécessité de définir des procédures de production avec pour objectif principal la tentative de concevoir ce fameux corpus ou structure informationnelle réelle et effective qui ferait sens, c’est-à-dire, interrogeable de façon transversale, navigable et cohérent pour tout un chacun. Nous pourrions nous référer ici à l’idée d’une « intentionnalité éditoriale » issue de la raison computationnelle.

Car le « faire sens » de cette nouvelle rationalité virtuelle semble se construire à la fois par l’harmonisation des processus de production qui affectent tant la forme que le fond (c’est-à-dire les modes des descriptions, le nommage, etc.), par la définition des clés d’accès au contenu, définition qui par ailleurs doit pouvoir évoluer dans le temps pour maintenir « l’intelligibilité culturelle » et par la définition technologique pour prévenir tout « fossé d’obsolescence », c’est-à-dire, l’incapacité de maintenir la lisibilité technique du corpus dans le temps [6].

Dans un troisième et dernier billet nous poursuivrons notre réflexion sur la production des instruments de recherche et son évolution dans le contexte du changement de paradigme induit par la raison computationnelle.


  1. Bruno Bachimont, Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents. Paris, Lavoisier, 2007, pp. 23-24.
  2. Louis Colombani, texte non publié.
  3. Norme internationale de la description archivistique ISAD(G).
  4. B. Bachimont, Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents. p. 25.
  5. B. Bachimont, « Intelligence artificielle et écriture dynamique : de la raison graphique à la raison computationnelle », 1996, pp. 12-18.
  6. Nous reviendrons sur ces notions dans un autre billet.