Tous les billets avec l'étiquette document

Projet de pont « ridicule » sur l’Aigues – avant 1840. Arch. dép. Vaucluse, 3S40

« Il faut mettre en ligne ! »
Les archives, les archivistes et le Web (part I)

Le constat n’est plus à faire, la mise en ligne « des archives » est devenu un impératif professionnel de première urgence.
Mais pourquoi donc cette urgence ?

  •   une forte pression « sociétale » réclame de pouvoir disposer d’informations à satiété sur l’histoire personnelle des individus, en même temps qu’elle refuse de considérer désormais l’existence ou la validité de ce qui n’est pas en ligne, et interpelle les pouvoirs publics pour accélérer cette nouvelle « sociabilité du bout des doigts »…
  •   les gouvernements s’en mêlent en prônant le tout numérique et la diffusion des informations publiques sur les réseaux, pour l’accessibilité citoyenne au patrimoine.

En écho à cette exigence sociale, les services publics d’archives, à l’instar d’ailleurs des autres institutions patrimoniales, ont donc entrepris des démarches variées de mise en ligne, devenue véritable objet stratégique dans leur politique.
L’archiviste doit désormais concevoir la mise en ligne non comme un « extra », mais comme une dimension actuelle de son métier, en liens étroits avec toutes ses missions de collecte, de classement, de conservation, de communication et de valorisation.
C’est même l’occasion pour lui de revenir sur le cœur de sa compétence ; l’archiviste doit s’emparer des nouvelles technologies de communication, et les utiliser pour développer les principes et gestes fondamentaux de l’archivistique, avec toutes leurs exigences scientifiques ; ainsi il affirmera sur le Web à la fois l’identité des archives comme matériau unique, proche mais différent de celui des bibliothèques ou des centres de documentation, et l’identité de son métier d’archiviste : il n’est pas un pourvoyeur d’informations tout à fait comme les autres, mais il a pour spécialité de décrire les fonds afin de les mettre à disposition de façon durable.

Que mettent en ligne les archivistes ?

Des images et des contenus

Dans un monde où l’œil est roi, on trouve énormément d’images sur les sites d’archives :

  •   documents offerts à la consultation : ce sont par exemple les collections de sources d’histoire des familles ;
  •   documents figurés donnés à voir, pièces d’archives comme plans de bâtiments, de territoires et de villes, à l’instar de cette représentation de la tour Anglica de Barbentane dans un recueil de comptes de l’évêché d’Avignon de 1363-1366  ou collections iconographiques comme cartes postales et photographies ;
  •   « trésors » d’archives, pièces exceptionnelles, comme ces deux épisodes de la chanson de Roland en provençal trouvés en tête d’un registre de notaire d’Apt du XIVe siècle
    ou symboliques par leur historicité ou leur beauté.

L’accès à ces images est multiforme : bases de données pour les grandes séries, expositions virtuelles, « galeries » de documents, dossiers pédagogiques…
On trouve également beaucoup de contenus de séries homogènes de documents primaires, dépouillés et mis à disposition généralement sous forme de bases de données interrogeables, nominatives ou géographiques : matricules militaires des soldats de la guerre de 14-18, dossiers d’immigrants sur le site des Archives nationales d’Australie, liste d’arrivants aux États-Unis sur Ellis Island Online, avec souvent des liens vers des images, de dossiers, de bateaux, de photographies personnelles ou de groupes…
Cette politique répond à une demande très forte, d’ancrage dans la société, de recherche de racines, d’histoire personnelle et familiale, de repères locaux, d’identité en somme, à laquelle l’archiviste se soustrait très difficilement ; ces dernières années, il était quasi suicidaire en France pour un service départemental de ne pas avoir mis en ligne l’état civil !

Des enjeux stratégiques

En termes d’analyse de son métier, l’archiviste peut se dire à juste titre dans ce type de mise en ligne qu’il assure plusieurs de ses missions : outre la réponse aux besoins des usagers, il apporte une vraie plus-value à son rôle de passeur

  •   en mettant des documents à disposition sur une très grande échelle,
  •   tout en assurant une préservation efficace des originaux ; ces documents seraient sans cela les plus fragilisés de tous, car les plus consultés ;
  •   attirant des publics « captifs », il en profite d’ailleurs pour leur proposer d’autres ressources, moins attendues, qu’ils n’auraient pas découvertes par eux-mêmes.

Par ce biais de sa connaissance inégalée des fonds, de même que par l’ampleur et la diversité des collections qu’il gère et peut mettre en ligne sous forme numérisée, l’archiviste affirme l’essentialité de son rôle face à la demande de masse.

Pour aller plus loin dans la réflexion, on peut toutefois s’interroger sur le niveau archivistique de ces mises en ligne d’images numériques, qui restent souvent très « basiques », tant du point de vue de la description que de l’organisation des documents : les objets présentés sont soit très sériels et répétitifs, sans nécessité d’analyse fine, soit au contraire traités à l’unité comme issus d’une collection.
C’est là que se situent les limites de l’exercice : la quasi obligation de mettre en ligne des quantités considérables de documents sériels, représentant en réalité une infime quantité des fonds conservés, destinée essentiellement à un public très identifié et à un certain type de recherche qualitativement limitée, ne doit pas faire oublier à l’archiviste que la mission où il est irremplaçable n’est pas celle-là : le cœur de son métier, c’est la mise à disposition de tous les publics de l’ensemble des archives qu’il conserve, c’est la présentation des fonds, c’est leur classement et surtout leur description ; la mission et l’expertise de l’archiviste, c’est la constitution des instruments de recherche, seul moyen d’accès véritable à la documentation historique de la recherche. Et c’est dans cette mise en ligne-là que sont les vrais enjeux stratégiques pour les archivistes.

Arles : Vue depuis les champs de blé, 1888, Vincent van Gogh The J. Paul Getty Museum, Los Angeles

Instrument de recherche, données et document

Données et document : une distinction essentielle

Un instrument de recherche est-il un document ? un ensemble de données ? les deux ? La distinction entre données et documents mérite que l’on s’y attarde un peu. Elle est importante pour les instruments de recherche archivistiques et, bien sûr, pour les archives électroniques. Nous nous intéressons ici au premier point.

Un instrument de recherche imprimé constitue, à coup sûr, un document. À l’inverse, une base de données documentaire est constituée d’un ensemble de données. Un document, même s’il reste modifiable, a quelque chose de fini. En réalité, s’il est modifié, il s’agit d’un nouveau document.

Un ensemble de données peut également être complété, mis à jour. Il peut surtout donner lieu à des traitements automatisés (ou manuels) et être restitué de différentes façons. Les données numériques sont manipulables par les ordinateurs. Il est possible de les assembler de différentes façons, pour obtenir différentes restitutions, différents documents, sans modifier les données d’origine.

Des documents numériques ?

Il faut peut-être, en préambule, s’arrêter un instant sur la notion de document numérique. Au cours d’un séminaire INRIA auquel nous avons participé [4], un intervenant, Stéphane Crozat , a eu cette phrase qui peut paraître provocante :

À l’heure du numérique, le document n’existe plus.

Le document numérique existe-t-il ? Peut-on vraiment parler de document numérique ? La question mérite en tout cas d’être posée et elle n’est pas neutre. Bruno Bachimont dans Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents (p. 34) [5], ne nie pas l’existence du document numérique, mais pointe une de ses caractéristiques essentielles, qui doit interpeller l’archiviste :

Un document numérique n’a pas de mémoire. Il est d’emblée falsifiable et possiblement falsifié. ».

Le même auteur, dans un article à propos des images et des vidéos [6], donne cette définition du numérique qui vaut également plus largement pour d’autres types de données :

Le numérique, dans sa longue histoire, est essentiellement une logique de fragmentation du contenu en unités formelles primitives et de recombinaison de ces unités de manière arbitraire suivant des règles elles-mêmes formelles. Cette définition abstraite renvoie à l’expérience que nous faisons tous aujourd’hui avec nos ordinateurs personnels. Les contenus comme les textes ou les images sont réduits à des éléments formels, des octets d’information codant les caractères ou les pixels ; ces octets sont composés de 0 et de 1, unités fondamentales utilisées pour coder tous les contenus. […] Ces deux symboles sont en soi vides de sens et ne renvoient à rien. […] Par la suite, on peut appliquer des programmes qui manipulent ces 0 et 1. […] Fragmentation et recombinaison constituent donc la tendance du numérique. Tout ce que touche le numérique sera potentiellement fragmenté et recombiné, la recombinaison étant de plus en plus arbitraire vis-à-vis du contenu initial. […] Autrement dit, on passe de l’indexation qui a pour but de retrouver un contenu à une éditorialisation qui a pour but de produire de nouveaux contenus à partir d’éléments pris arbitrairement (c’est-à-dire comme l’on veut, et non pas au hasard !).

Les octets sont invisibles de manière immédiate (sans intermédiaire, contrairement au texte sur papier). L’intérêt de ces données, c’est qu’elles peuvent être manipulées par les outils informatiques. À un moment, ces données manipulées sont restituées par l’intermédiaire d’un écran ou d’une imprimante selon des formes variables. On peut dire que le document n’existe qu’une fois affiché à l’écran, couché sur le papier, sorti de l’imprimante. Il n’y a pas, alors, un document unique, mais plusieurs documents distincts.

Se pose alors la question de la fiabilité du document restitué.

Instrument de recherche : des va-et-vient entre document et données

Mais, revenons aux instruments de recherche, qui sont des documents sur des documents ou des ensembles de données (de métadonnées). Ce qui suit est très schématique. Néanmoins, on peut distinguer quelques grandes étapes dans l’histoire des catalogues de bibliothèque et des instruments de recherche d’archives.

  • Les premiers inventaires, pour les bibliothèques comme pour les archives, étaient des listes manuscrites : des documents.
  • Les catalogues et inventaires dactylographiés et imprimés sont de même nature. En particulier les instruments de recherche archivistiques, avec leur spécificité d’organisation hiérarchique.
  • Sont venus, ensuite, les catalogues sur fiches cartonnées, surtout pour les bibliothèques, qui sont des collections de données.
  • Les premières étapes de l’informatisation ont repris le principe des fiches cartonnées et se sont donc orientées vers la gestion de données descriptives. Cela concernait principalement les bibliothèques, mais, dans les années 1980-1990, certains archivistes ont voulu abandonner les instruments de recherche hiérarchisés pour s’adapter aux technologies du moment, alors développées autour de bases de données documentaires.
  • Avec l’arrivée de la normalisation, dans la deuxième moitié de la décennie 1990, puis du format XML-EAD, au tournant des années 2000, on a assisté à un retour de l’instrument de recherche, électronique cette fois, sous forme de document.
  • L’étape prévisible suivante, avec le très puissant mouvement vers les données liées, semble être un nouveau coup de balancier vers les données. Mais probablement plutôt, une double essence, données et document.

Instrument de recherche : données puis document ?

Il y a peu, quand on classait un fonds d’archives plus ou moins en vrac, on décrivait souvent les dossiers sur de petites fiches papier, puis on regroupait, ordonnait, ces fiches, bref on les organisait pour produire en fin un instrument de recherche. On passait donc par la case données pour aboutir à un document.

Il faut remarquer que la genèse du module Arkhéïa Aide au classement se trouve là. Et, Aide au classement est un logiciel qui permet de saisir, de stocker, d’assembler des données descriptives pour produire un document instrument de recherche.

Mais un instrument de recherche n’est pas vraiment un ensemble de données

Un instrument de recherche fini, qu’il soit imprimé ou même sous forme d’un fichier au format XML-EAD, ne constitue pas exactement une collection de données descriptives. Si l’on prend l’exemple d’un composant <c> d’un inventaire au format EAD, la description peut se limiter à « feuille 1 – 1838 », voire « 1989 ».

En effet, le respect du principe de description à plusieurs niveaux et de non-redondance conduit à répartir les informations nécessaires à la description d’un document donné dans plusieurs composants. Seul un mécanisme dit « d’héritage », généralement complexe, permet de reconstituer un ensemble descriptif signifiant.

Cet état de fait, dont il faut être parfaitement conscient, peut constituer un handicap pour l’intégration des descriptions d’archives dans le réseau des données liées. C’est en tout cas un problème qu’il est nécessaire de traiter.

Stocker des données et générer des documents

L’option prise par Arkhéïa Aide au classement, dès son origine, a été de stocker les descriptions de documents comme données et de les restituer sous forme de documents. Cette option présente de nombreux avantages qui deviennent encore plus évidents avec l’orientation vers les données liées.

Nous passerons ici, puisque ce n’est pas l’objet, sur les nombreux avantages en termes de traitements (par exemple : contrôles, corrections et modifications par lots…) pour nous centrer sur les possibilités de restitutions. Les données stockées peuvent facilement :

  • Être assemblées automatiquement sous formes d’autres données, par exemple des triplets RDF.
  • Être assemblées automatiquement en documents numériques suivant de nombreux formats destinés à différents supports (polymorphisme et multi-support). Par exemple :
    • Format XML conforme à la DTD-EAD 2002
    • Format XML conforme à différents profils spécifiques de la DTD-EAD 2002
    • Format XML conforme au nouveau schéma EAD, version 3 bientôt finalisée
    • Format HTML directement exploitable sur un écran
    • Format pour traitement de texte destiné à l’impression
    • Format PDF issu du précédent destiné au téléchargement par l’internaute
    • Et bien d’autres, sans être limité par le dictionnaire et la grammaire d’un format particulier.

À propos de la constitution de documents élaborés à partir de données ou de fragments de documents, Bruno Bachimont, Stéphane Crozat parlent d’éditorialisation. Jean-Michel Salaün ou Roger T. Pédauque ont introduit la notion de redocumentarisation, qui implique la nécessité de métadonnées pour reconstruire les documents et tracer ces reconstructions.

Ces questions sont seulement effleurées ici et méritent d’être approfondies car elles sont essentielles pour le travail de l’archiviste et, en particulier, pour assurer une pérennisation optimale de son travail de description.


Quelques lectures

  1. Roger T. Pédauque. Le document à la lumière du numérique. Présentation de Jean-Michel Salaün et préface de Michel Melot. – Caen : C&F éditions, 2006. – 218 p. ; 21 cm. – ISBN 2-915825-04-1
  2. Roger T. Pédauque. La redocumentarisation du monde. Préface de Niels Windfeld Lund. – Toulouse : Cépaduès éditions, 2007. – 213 p. ; 21 cm. – ISBN 978-2-85428-728-8
  3. Jean-Michel Salaün. Pourquoi le document importe. Article en ligne : http://www.ina-expert.com/e-dossier-de-l-audiovisuel-sciences-humaines-et-sociales-et-patrimoine-numerique/pourquoi-le-document-importe.html
  4. Stéphane Crozat. « Chaînes éditoriales et rééditorialisation des contenus numériques » in Le document numérique à l’heure du web des données. Séminaire Inria, Carnac 1er-5 octobre 2012. – ADBS Éditions, 2012. – 256 p. ; 24 cm. – ISBN 978-2-84365-142-7. Article accessible en ligne : http://hal.inria.fr/docs/00/74/02/68/PDF/crozat-v2.pdf
  5. Bruno Bachimont. Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents. – Paris : Hermes science publications-Lavoisier, impr. 2007. – 279 p. ; 24 cm. – ISBN 978-2-7462-1369-2
  6. Bruno Bachimont. « Image et audiovisuel : la documentation entre technique et interprétation » in Documentaliste – Sciences de l’information, volume 42, n° 6, 31 décembre 2005 ; pages 348-353. Article accessible en ligne : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2005-6-page-348.htm