Tous les billets avec l'étiquette donnée

Arles : Vue depuis les champs de blé, 1888, Vincent van Gogh The J. Paul Getty Museum, Los Angeles

Instrument de recherche, données et document

Données et document : une distinction essentielle

Un instrument de recherche est-il un document ? un ensemble de données ? les deux ? La distinction entre données et documents mérite que l’on s’y attarde un peu. Elle est importante pour les instruments de recherche archivistiques et, bien sûr, pour les archives électroniques. Nous nous intéressons ici au premier point.

Un instrument de recherche imprimé constitue, à coup sûr, un document. À l’inverse, une base de données documentaire est constituée d’un ensemble de données. Un document, même s’il reste modifiable, a quelque chose de fini. En réalité, s’il est modifié, il s’agit d’un nouveau document.

Un ensemble de données peut également être complété, mis à jour. Il peut surtout donner lieu à des traitements automatisés (ou manuels) et être restitué de différentes façons. Les données numériques sont manipulables par les ordinateurs. Il est possible de les assembler de différentes façons, pour obtenir différentes restitutions, différents documents, sans modifier les données d’origine.

Des documents numériques ?

Il faut peut-être, en préambule, s’arrêter un instant sur la notion de document numérique. Au cours d’un séminaire INRIA auquel nous avons participé [4], un intervenant, Stéphane Crozat , a eu cette phrase qui peut paraître provocante :

À l’heure du numérique, le document n’existe plus.

Le document numérique existe-t-il ? Peut-on vraiment parler de document numérique ? La question mérite en tout cas d’être posée et elle n’est pas neutre. Bruno Bachimont dans Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents (p. 34) [5], ne nie pas l’existence du document numérique, mais pointe une de ses caractéristiques essentielles, qui doit interpeller l’archiviste :

Un document numérique n’a pas de mémoire. Il est d’emblée falsifiable et possiblement falsifié. ».

Le même auteur, dans un article à propos des images et des vidéos [6], donne cette définition du numérique qui vaut également plus largement pour d’autres types de données :

Le numérique, dans sa longue histoire, est essentiellement une logique de fragmentation du contenu en unités formelles primitives et de recombinaison de ces unités de manière arbitraire suivant des règles elles-mêmes formelles. Cette définition abstraite renvoie à l’expérience que nous faisons tous aujourd’hui avec nos ordinateurs personnels. Les contenus comme les textes ou les images sont réduits à des éléments formels, des octets d’information codant les caractères ou les pixels ; ces octets sont composés de 0 et de 1, unités fondamentales utilisées pour coder tous les contenus. […] Ces deux symboles sont en soi vides de sens et ne renvoient à rien. […] Par la suite, on peut appliquer des programmes qui manipulent ces 0 et 1. […] Fragmentation et recombinaison constituent donc la tendance du numérique. Tout ce que touche le numérique sera potentiellement fragmenté et recombiné, la recombinaison étant de plus en plus arbitraire vis-à-vis du contenu initial. […] Autrement dit, on passe de l’indexation qui a pour but de retrouver un contenu à une éditorialisation qui a pour but de produire de nouveaux contenus à partir d’éléments pris arbitrairement (c’est-à-dire comme l’on veut, et non pas au hasard !).

Les octets sont invisibles de manière immédiate (sans intermédiaire, contrairement au texte sur papier). L’intérêt de ces données, c’est qu’elles peuvent être manipulées par les outils informatiques. À un moment, ces données manipulées sont restituées par l’intermédiaire d’un écran ou d’une imprimante selon des formes variables. On peut dire que le document n’existe qu’une fois affiché à l’écran, couché sur le papier, sorti de l’imprimante. Il n’y a pas, alors, un document unique, mais plusieurs documents distincts.

Se pose alors la question de la fiabilité du document restitué.

Instrument de recherche : des va-et-vient entre document et données

Mais, revenons aux instruments de recherche, qui sont des documents sur des documents ou des ensembles de données (de métadonnées). Ce qui suit est très schématique. Néanmoins, on peut distinguer quelques grandes étapes dans l’histoire des catalogues de bibliothèque et des instruments de recherche d’archives.

  • Les premiers inventaires, pour les bibliothèques comme pour les archives, étaient des listes manuscrites : des documents.
  • Les catalogues et inventaires dactylographiés et imprimés sont de même nature. En particulier les instruments de recherche archivistiques, avec leur spécificité d’organisation hiérarchique.
  • Sont venus, ensuite, les catalogues sur fiches cartonnées, surtout pour les bibliothèques, qui sont des collections de données.
  • Les premières étapes de l’informatisation ont repris le principe des fiches cartonnées et se sont donc orientées vers la gestion de données descriptives. Cela concernait principalement les bibliothèques, mais, dans les années 1980-1990, certains archivistes ont voulu abandonner les instruments de recherche hiérarchisés pour s’adapter aux technologies du moment, alors développées autour de bases de données documentaires.
  • Avec l’arrivée de la normalisation, dans la deuxième moitié de la décennie 1990, puis du format XML-EAD, au tournant des années 2000, on a assisté à un retour de l’instrument de recherche, électronique cette fois, sous forme de document.
  • L’étape prévisible suivante, avec le très puissant mouvement vers les données liées, semble être un nouveau coup de balancier vers les données. Mais probablement plutôt, une double essence, données et document.

Instrument de recherche : données puis document ?

Il y a peu, quand on classait un fonds d’archives plus ou moins en vrac, on décrivait souvent les dossiers sur de petites fiches papier, puis on regroupait, ordonnait, ces fiches, bref on les organisait pour produire en fin un instrument de recherche. On passait donc par la case données pour aboutir à un document.

Il faut remarquer que la genèse du module Arkhéïa Aide au classement se trouve là. Et, Aide au classement est un logiciel qui permet de saisir, de stocker, d’assembler des données descriptives pour produire un document instrument de recherche.

Mais un instrument de recherche n’est pas vraiment un ensemble de données

Un instrument de recherche fini, qu’il soit imprimé ou même sous forme d’un fichier au format XML-EAD, ne constitue pas exactement une collection de données descriptives. Si l’on prend l’exemple d’un composant <c> d’un inventaire au format EAD, la description peut se limiter à « feuille 1 – 1838 », voire « 1989 ».

En effet, le respect du principe de description à plusieurs niveaux et de non-redondance conduit à répartir les informations nécessaires à la description d’un document donné dans plusieurs composants. Seul un mécanisme dit « d’héritage », généralement complexe, permet de reconstituer un ensemble descriptif signifiant.

Cet état de fait, dont il faut être parfaitement conscient, peut constituer un handicap pour l’intégration des descriptions d’archives dans le réseau des données liées. C’est en tout cas un problème qu’il est nécessaire de traiter.

Stocker des données et générer des documents

L’option prise par Arkhéïa Aide au classement, dès son origine, a été de stocker les descriptions de documents comme données et de les restituer sous forme de documents. Cette option présente de nombreux avantages qui deviennent encore plus évidents avec l’orientation vers les données liées.

Nous passerons ici, puisque ce n’est pas l’objet, sur les nombreux avantages en termes de traitements (par exemple : contrôles, corrections et modifications par lots…) pour nous centrer sur les possibilités de restitutions. Les données stockées peuvent facilement :

  • Être assemblées automatiquement sous formes d’autres données, par exemple des triplets RDF.
  • Être assemblées automatiquement en documents numériques suivant de nombreux formats destinés à différents supports (polymorphisme et multi-support). Par exemple :
    • Format XML conforme à la DTD-EAD 2002
    • Format XML conforme à différents profils spécifiques de la DTD-EAD 2002
    • Format XML conforme au nouveau schéma EAD, version 3 bientôt finalisée
    • Format HTML directement exploitable sur un écran
    • Format pour traitement de texte destiné à l’impression
    • Format PDF issu du précédent destiné au téléchargement par l’internaute
    • Et bien d’autres, sans être limité par le dictionnaire et la grammaire d’un format particulier.

À propos de la constitution de documents élaborés à partir de données ou de fragments de documents, Bruno Bachimont, Stéphane Crozat parlent d’éditorialisation. Jean-Michel Salaün ou Roger T. Pédauque ont introduit la notion de redocumentarisation, qui implique la nécessité de métadonnées pour reconstruire les documents et tracer ces reconstructions.

Ces questions sont seulement effleurées ici et méritent d’être approfondies car elles sont essentielles pour le travail de l’archiviste et, en particulier, pour assurer une pérennisation optimale de son travail de description.


Quelques lectures

  1. Roger T. Pédauque. Le document à la lumière du numérique. Présentation de Jean-Michel Salaün et préface de Michel Melot. – Caen : C&F éditions, 2006. – 218 p. ; 21 cm. – ISBN 2-915825-04-1
  2. Roger T. Pédauque. La redocumentarisation du monde. Préface de Niels Windfeld Lund. – Toulouse : Cépaduès éditions, 2007. – 213 p. ; 21 cm. – ISBN 978-2-85428-728-8
  3. Jean-Michel Salaün. Pourquoi le document importe. Article en ligne : http://www.ina-expert.com/e-dossier-de-l-audiovisuel-sciences-humaines-et-sociales-et-patrimoine-numerique/pourquoi-le-document-importe.html
  4. Stéphane Crozat. « Chaînes éditoriales et rééditorialisation des contenus numériques » in Le document numérique à l’heure du web des données. Séminaire Inria, Carnac 1er-5 octobre 2012. – ADBS Éditions, 2012. – 256 p. ; 24 cm. – ISBN 978-2-84365-142-7. Article accessible en ligne : http://hal.inria.fr/docs/00/74/02/68/PDF/crozat-v2.pdf
  5. Bruno Bachimont. Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents. – Paris : Hermes science publications-Lavoisier, impr. 2007. – 279 p. ; 24 cm. – ISBN 978-2-7462-1369-2
  6. Bruno Bachimont. « Image et audiovisuel : la documentation entre technique et interprétation » in Documentaliste – Sciences de l’information, volume 42, n° 6, 31 décembre 2005 ; pages 348-353. Article accessible en ligne : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2005-6-page-348.htm