Tous les billets avec l'étiquette document numérique

Petit pont de pierre sur le ruisseau Le Colombier, dans la Montagnette. © Photo Louis Colombani

Principe de recherche avec un moteur pour les archives

Une des principales difficultés de notre métier… est de l’expliquer ! « Ah, vous faites de l’archivage ? Ah, vous mettez les archives sur ordinateur ? »
Combien de fois avons-nous dû tenter de préciser les choses à nos interlocuteurs. Sans toujours beaucoup de succès. Et, si l’on dit qu’un bon dessin vaut mieux qu’un long discours, ce n’est pas facile de faire un dessin en toutes circonstances.
C’est un peu dans cet esprit que nous avons décidé de rédiger ce petit texte : tenter de schématiser ce que peut être la mise en ligne pour des ressources archivistiques et, en particulier, à quoi peut servir un moteur de recherche.

Au moins trois classes d’entités distinctes

Les archivistes, mais aussi les bibliothécaires et les documentalistes doivent gérer trois types d’entités.

 

A.  Les informations

Ce que les publics recherchent, ce sont des informations. Ceci, quel que soit le type de recherche, de la date de naissance d’un ancêtre, à la matière première d’une thèse de doctorat.
L’information est quelque chose d’immatériel.

B.  Les documents

Les documentalistes parlent de documents primaires, par opposition aux documents secondaires que sont les inventaires et catalogues.
Il s’agit d’objets, matériels ou électroniques, supports des informations. Au fond, qu’il s’agisse de documents papier ou électroniques, la différence n’est pas si fondamentale, il s’agit toujours de supports d’information.
Ajoutons toutefois que le document original (là encore matériel ou électronique) peut avoir valeur probante. Il garantit, en quelque sorte, l’authenticité de l’information dont il est le support.

C.  Les descriptions

Les métadonnées descriptives, les inventaires et catalogues, décrivent généralement à la fois les documents (description physique) et les informations qui y sont consignées (contenu) et en relation (contexte).
On voit ainsi qu’elles ont un double rôle : dire ce qu’est le document et dire quelles informations il contient.
La description des informations consignées doit permettre aux publics d’accéder à ces informations.

Plusieurs schémas de recherche

Pour accéder à des informations, on passe généralement par des intermédiaires : on utile des descriptions, qui nous conduisent vers des documents, qui contiennent les informations recherchées.
Mais, dans certains cas, moins fréquents dans notre domaine, descriptions et informations peuvent être confondus.

Différents scenarii d’accès à l’information sont possibles, que nous tentons de schématiser et préciser ci-après.

Schéma d’utilisations d’un moteur de recherche pour les ressources archivistiques

Schéma d’utilisations d’un moteur de recherche pour les ressources archivistiques Licence Creative Commons
Image mise à disposition selon les termes de la Licence Creative Commons Attribution – Pas d'Utilisation Commerciale – Pas de Modification 4.0 International.

A.  De la description à l’information

Il s’agit du cas largement le plus fréquent. Il est représenté dans la partie gauche du schéma ci-dessus.
Le moteur de recherche permet de scruter les métadonnées descriptives. Les résultats de la recherche sont obtenus sous forme d’une liste des descriptions (liste simple ou hiérarchisée). Ces descriptions donnent accès aux documents dans lesquels les informations seront trouvées.
Ici, on peut encore distinguer trois cas possibles pour parvenir jusqu’à l’information.

1.  On obtient une cote (ou plusieurs cotes)

En ligne, ne sont disponibles que les descriptions.
Le lecteur, s’il a trouvé ce qu’il cherche, devra, après avoir obtenu la (les) référence(s) du (des) document(s) l’intéressant, se rendre, par exemple, dans une salle de lecture pour consulter les documents et accéder aux informations recherchées.
Le scénario avec le moteur de recherche s’arrête avec l’obtention de la cote, il ne parvient pas jusqu’au document.
C’est, ici encore, le cas de figure le plus courant.

2.  Des documents numériques sont liées aux descriptions

Les documents décrits ont été numérisés. La consultation se fait alors en ligne en visualisant les documents, soit sous forme d’images (par exemple pour des manuscrits, des cartes…), soit sous forme de documents au format pdf (pour des rapports…, par exemple).
Le lecteur n’a pas besoin de se rendre dans le service des archives. La solution informatique en ligne conduit jusqu’au document (le plus souvent, à une copie numérique du document).
C’est évidemment cette solution que préfèrent les chercheurs. Mais, généralement, seule une petite proportion des documents d’archives a été numérisée.

Dans le cas des archives nativement électroniques, si l’on se place du point de vue de l’accès à l’information (et non de la gestion), le scénario peut être tout à fait semblable. Simplement, le texte-même du document peut servir à la recherche (recherche plein texte), en plus de la recherche par les métadonnées descriptives.

3.  Les documents sont en ligne ailleurs

C’est un cas encore plus rare, nous le citerons néanmoins. Les documents décrits ne sont pas en ligne sur le site des archives, mais ailleurs.
Ce cas est rare car les archivistes décrivent généralement des documents qu’ils gèrent. Mais, il peut être amené à se développer dans le cadre du mouvement vers la convergence des métiers d’accès à l’information.

B.  Accès direct aux informations

Il s’agit d’un scénario relativement rare, mais un exemple est néanmoins d’actualité, et c’est d’ailleurs lui qui nous a inspiré ce petit texte.
Généralement, les archivistes, comme on l’a vu, décrivent les documents et, de manière succincte, leur contenu. Leurs descriptions ne contiennent pas les informations elles-mêmes dont ont besoin leurs publics.
Dans la cadre du centenaire de la Première Guerre mondiale, certains services d’archives ont fait procéder à la numérisation et à l’indexation de registres matricules militaires. Par indexation, on entend le relevé d’informations sur les conscrits, par exemple, et suivant les cas : nom, prénom, date et lieu de naissance, profession… On produit alors non plus des métadonnées descriptives sur des documents, mais on extrait des informations de ces documents et l’on met ces informations à disposition des publics. On pourrait alors dire que l’on élabore une banque de données.

C.  Et les notices d’autorité

La norme ISAAR et le schéma EAC ont eu, jusqu’à présent, un peu de mal à s’imposer. On peut toutefois prévoir que des notices d’autorité présentant des entités autres que les ressources archivistiques seront progressivement mises en ligne. Les archivistes ont rédigé des notices sur les producteurs, mais aussi sur d’autres personnes physiques ou morales ; ils ont parfois publié des dictionnaires topographiques avec des notices sur des lieux… Ces différentes notices ont vocation à être mises en ligne.
Il s’agit, là aussi, directement d’informations.
De plus, ces notices d’autorité ont également vocation à être liées avec les notices descriptives des documents.

Arles : Vue depuis les champs de blé, 1888, Vincent van Gogh The J. Paul Getty Museum, Los Angeles

Instrument de recherche, données et document

Données et document : une distinction essentielle

Un instrument de recherche est-il un document ? un ensemble de données ? les deux ? La distinction entre données et documents mérite que l’on s’y attarde un peu. Elle est importante pour les instruments de recherche archivistiques et, bien sûr, pour les archives électroniques. Nous nous intéressons ici au premier point.

Un instrument de recherche imprimé constitue, à coup sûr, un document. À l’inverse, une base de données documentaire est constituée d’un ensemble de données. Un document, même s’il reste modifiable, a quelque chose de fini. En réalité, s’il est modifié, il s’agit d’un nouveau document.

Un ensemble de données peut également être complété, mis à jour. Il peut surtout donner lieu à des traitements automatisés (ou manuels) et être restitué de différentes façons. Les données numériques sont manipulables par les ordinateurs. Il est possible de les assembler de différentes façons, pour obtenir différentes restitutions, différents documents, sans modifier les données d’origine.

Des documents numériques ?

Il faut peut-être, en préambule, s’arrêter un instant sur la notion de document numérique. Au cours d’un séminaire INRIA auquel nous avons participé [4], un intervenant, Stéphane Crozat , a eu cette phrase qui peut paraître provocante :

À l’heure du numérique, le document n’existe plus.

Le document numérique existe-t-il ? Peut-on vraiment parler de document numérique ? La question mérite en tout cas d’être posée et elle n’est pas neutre. Bruno Bachimont dans Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents (p. 34) [5], ne nie pas l’existence du document numérique, mais pointe une de ses caractéristiques essentielles, qui doit interpeller l’archiviste :

Un document numérique n’a pas de mémoire. Il est d’emblée falsifiable et possiblement falsifié. ».

Le même auteur, dans un article à propos des images et des vidéos [6], donne cette définition du numérique qui vaut également plus largement pour d’autres types de données :

Le numérique, dans sa longue histoire, est essentiellement une logique de fragmentation du contenu en unités formelles primitives et de recombinaison de ces unités de manière arbitraire suivant des règles elles-mêmes formelles. Cette définition abstraite renvoie à l’expérience que nous faisons tous aujourd’hui avec nos ordinateurs personnels. Les contenus comme les textes ou les images sont réduits à des éléments formels, des octets d’information codant les caractères ou les pixels ; ces octets sont composés de 0 et de 1, unités fondamentales utilisées pour coder tous les contenus. […] Ces deux symboles sont en soi vides de sens et ne renvoient à rien. […] Par la suite, on peut appliquer des programmes qui manipulent ces 0 et 1. […] Fragmentation et recombinaison constituent donc la tendance du numérique. Tout ce que touche le numérique sera potentiellement fragmenté et recombiné, la recombinaison étant de plus en plus arbitraire vis-à-vis du contenu initial. […] Autrement dit, on passe de l’indexation qui a pour but de retrouver un contenu à une éditorialisation qui a pour but de produire de nouveaux contenus à partir d’éléments pris arbitrairement (c’est-à-dire comme l’on veut, et non pas au hasard !).

Les octets sont invisibles de manière immédiate (sans intermédiaire, contrairement au texte sur papier). L’intérêt de ces données, c’est qu’elles peuvent être manipulées par les outils informatiques. À un moment, ces données manipulées sont restituées par l’intermédiaire d’un écran ou d’une imprimante selon des formes variables. On peut dire que le document n’existe qu’une fois affiché à l’écran, couché sur le papier, sorti de l’imprimante. Il n’y a pas, alors, un document unique, mais plusieurs documents distincts.

Se pose alors la question de la fiabilité du document restitué.

Instrument de recherche : des va-et-vient entre document et données

Mais, revenons aux instruments de recherche, qui sont des documents sur des documents ou des ensembles de données (de métadonnées). Ce qui suit est très schématique. Néanmoins, on peut distinguer quelques grandes étapes dans l’histoire des catalogues de bibliothèque et des instruments de recherche d’archives.

  • Les premiers inventaires, pour les bibliothèques comme pour les archives, étaient des listes manuscrites : des documents.
  • Les catalogues et inventaires dactylographiés et imprimés sont de même nature. En particulier les instruments de recherche archivistiques, avec leur spécificité d’organisation hiérarchique.
  • Sont venus, ensuite, les catalogues sur fiches cartonnées, surtout pour les bibliothèques, qui sont des collections de données.
  • Les premières étapes de l’informatisation ont repris le principe des fiches cartonnées et se sont donc orientées vers la gestion de données descriptives. Cela concernait principalement les bibliothèques, mais, dans les années 1980-1990, certains archivistes ont voulu abandonner les instruments de recherche hiérarchisés pour s’adapter aux technologies du moment, alors développées autour de bases de données documentaires.
  • Avec l’arrivée de la normalisation, dans la deuxième moitié de la décennie 1990, puis du format XML-EAD, au tournant des années 2000, on a assisté à un retour de l’instrument de recherche, électronique cette fois, sous forme de document.
  • L’étape prévisible suivante, avec le très puissant mouvement vers les données liées, semble être un nouveau coup de balancier vers les données. Mais probablement plutôt, une double essence, données et document.

Instrument de recherche : données puis document ?

Il y a peu, quand on classait un fonds d’archives plus ou moins en vrac, on décrivait souvent les dossiers sur de petites fiches papier, puis on regroupait, ordonnait, ces fiches, bref on les organisait pour produire en fin un instrument de recherche. On passait donc par la case données pour aboutir à un document.

Il faut remarquer que la genèse du module Arkhéïa Aide au classement se trouve là. Et, Aide au classement est un logiciel qui permet de saisir, de stocker, d’assembler des données descriptives pour produire un document instrument de recherche.

Mais un instrument de recherche n’est pas vraiment un ensemble de données

Un instrument de recherche fini, qu’il soit imprimé ou même sous forme d’un fichier au format XML-EAD, ne constitue pas exactement une collection de données descriptives. Si l’on prend l’exemple d’un composant <c> d’un inventaire au format EAD, la description peut se limiter à « feuille 1 – 1838 », voire « 1989 ».

En effet, le respect du principe de description à plusieurs niveaux et de non-redondance conduit à répartir les informations nécessaires à la description d’un document donné dans plusieurs composants. Seul un mécanisme dit « d’héritage », généralement complexe, permet de reconstituer un ensemble descriptif signifiant.

Cet état de fait, dont il faut être parfaitement conscient, peut constituer un handicap pour l’intégration des descriptions d’archives dans le réseau des données liées. C’est en tout cas un problème qu’il est nécessaire de traiter.

Stocker des données et générer des documents

L’option prise par Arkhéïa Aide au classement, dès son origine, a été de stocker les descriptions de documents comme données et de les restituer sous forme de documents. Cette option présente de nombreux avantages qui deviennent encore plus évidents avec l’orientation vers les données liées.

Nous passerons ici, puisque ce n’est pas l’objet, sur les nombreux avantages en termes de traitements (par exemple : contrôles, corrections et modifications par lots…) pour nous centrer sur les possibilités de restitutions. Les données stockées peuvent facilement :

  • Être assemblées automatiquement sous formes d’autres données, par exemple des triplets RDF.
  • Être assemblées automatiquement en documents numériques suivant de nombreux formats destinés à différents supports (polymorphisme et multi-support). Par exemple :
    • Format XML conforme à la DTD-EAD 2002
    • Format XML conforme à différents profils spécifiques de la DTD-EAD 2002
    • Format XML conforme au nouveau schéma EAD, version 3 bientôt finalisée
    • Format HTML directement exploitable sur un écran
    • Format pour traitement de texte destiné à l’impression
    • Format PDF issu du précédent destiné au téléchargement par l’internaute
    • Et bien d’autres, sans être limité par le dictionnaire et la grammaire d’un format particulier.

À propos de la constitution de documents élaborés à partir de données ou de fragments de documents, Bruno Bachimont, Stéphane Crozat parlent d’éditorialisation. Jean-Michel Salaün ou Roger T. Pédauque ont introduit la notion de redocumentarisation, qui implique la nécessité de métadonnées pour reconstruire les documents et tracer ces reconstructions.

Ces questions sont seulement effleurées ici et méritent d’être approfondies car elles sont essentielles pour le travail de l’archiviste et, en particulier, pour assurer une pérennisation optimale de son travail de description.


Quelques lectures

  1. Roger T. Pédauque. Le document à la lumière du numérique. Présentation de Jean-Michel Salaün et préface de Michel Melot. – Caen : C&F éditions, 2006. – 218 p. ; 21 cm. – ISBN 2-915825-04-1
  2. Roger T. Pédauque. La redocumentarisation du monde. Préface de Niels Windfeld Lund. – Toulouse : Cépaduès éditions, 2007. – 213 p. ; 21 cm. – ISBN 978-2-85428-728-8
  3. Jean-Michel Salaün. Pourquoi le document importe. Article en ligne : http://www.ina-expert.com/e-dossier-de-l-audiovisuel-sciences-humaines-et-sociales-et-patrimoine-numerique/pourquoi-le-document-importe.html
  4. Stéphane Crozat. « Chaînes éditoriales et rééditorialisation des contenus numériques » in Le document numérique à l’heure du web des données. Séminaire Inria, Carnac 1er-5 octobre 2012. – ADBS Éditions, 2012. – 256 p. ; 24 cm. – ISBN 978-2-84365-142-7. Article accessible en ligne : http://hal.inria.fr/docs/00/74/02/68/PDF/crozat-v2.pdf
  5. Bruno Bachimont. Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents. – Paris : Hermes science publications-Lavoisier, impr. 2007. – 279 p. ; 24 cm. – ISBN 978-2-7462-1369-2
  6. Bruno Bachimont. « Image et audiovisuel : la documentation entre technique et interprétation » in Documentaliste – Sciences de l’information, volume 42, n° 6, 31 décembre 2005 ; pages 348-353. Article accessible en ligne : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2005-6-page-348.htm