Tous les billets avec l'étiquette éditorialisation

Publier Caderousse
Part II. L’aventure de Caderousse

Comme beaucoup de services d’archives sans doute parmi ceux qui attachent de la valeur à la fonction classement, les archives départementales de Vaucluse souhaitaient disposer d’un outil de mise en valeur de leurs travaux. Le classement est parfois – souvent – l’aboutissement d’années de labeur et de recherches. C’est donc une petite fête lorsqu’un nouveau « bébé » est prêt !

En l’occurrence, il s’agissait là de faire aboutir le travail de tri et de description réalisé par Martine Sainte-Marie, qui avait relevé le défi (sorte de bizutage puisqu’il s’agissait de son cadeau de bienvenue à son arrivée aux archives départementales de Vaucluse en 2006) de classer l’imposant fonds du duché de Caderousse, entré en 1900 et qui avait attendu la bagatelle de 106 années avant de passer entre des mains expertes capables de le maîtriser et d’en venir à bout en douceur. L’inventaire était terminé, avait reçu le visa scientifique et technique des Archives de France, mais comment montrer ce travail ? En publiant un inventaire, évidemment. Oui, mais plus facile à dire qu’à faire quand un service ne dispose ni de cellule PAO, ni de moyens budgétaires suffisants pour financer les prestations d’un graphiste à chaque publication… L’idée a donc germé, avec la complicité d’Anaphore, de développer un outil d’« éditorialisation » pour – enfin ! – publier des inventaires esthétiques directement à partir de la base de données présente dans le module Aide au classement d’Arkhéïa.

La commande était de publier un répertoire en version imprimable d’une part et sous forme de page HTML diffusable sur internet d’autre part, en même temps qu’en version EAD « traditionnelle », sans avoir à retravailler le fichier initial. Les archives souhaitaient qu’une grande attention soit portée à la lisibilité et à la qualité graphique de l’instrument de recherche pour les deux formes de restitution.
Toujours à l’écoute, Anaphore a répondu à nos requêtes et a pu formaliser nos souhaits qui devaient être absolument pris en compte dans une maquette.

Les trois points pris en compte par la maquette proposée

Compréhensibilité

Un instrument de recherche n’est pas toujours d’une grande limpidité. Plusieurs sortes de métadonnées descriptives peuvent être présentées à la suite, sans ou avec des différences typographiques, mais, dans tous les cas, sans qu’il soit possible d’en saisir la nature.

Lisibilité

Cette notion, tout en étant proche de la précédente, peut en être distincte. En effet, la lisibilité facilite généralement la compréhension. Par exemple, une énumération sera nettement plus lisible et donc plus rapidement compréhensible sous forme de liste à puces que sous la forme d’un gros paragraphe avec des points virgules ou des virgules comme séparateurs ; mais le gros paragraphe peut être compréhensible par un lecteur qui s’en donnera la peine si l’archiviste a pris la précaution de préciser de quoi il s’agit, alors qu’une liste sera difficilement compréhensible si l’on ne sait pas de quoi il s’agit.

Esthétique

Si la présentation est soignée, agréable, le lecteur sera plus enclin à consulter l’instrument de recherche. Là encore, cette notion est distincte des précédentes : un instrument de recherche peut être agréable à regarder mais difficile à comprendre. L’intégration de l’iconographie tout au long du corps de l’inventaire s’est imposée.

L’éditorialisation

Elle devait permettre d’intégrer toutes les parties rédigées jusque-là autour de l’inventaire : introduction, bibliographe, sources complémentaires, annexes (généalogie de la famille, glossaire, etc.).

Elle devait également mettre en valeur :

  •   d’une part la structure de l’inventaire (son plan),
  •   d’autre part, le début de chaque nouvelle notice descriptive.

Structure de l’inventaire

Cette structure est plus ou moins complexe ; elle peut compter jusqu’à sept niveaux emboîtés. La base Caderousse joue sur six niveaux. Les archives souhaitaient qu’on puisse toujours savoir où on se situe dans ce plan, quel que soit l’endroit où on se trouve positionné dans l’inventaire.

Notices descriptives

La notice descriptive regroupe deux types de données :

  •   la description de l’unité archivistique elle-même, qui est la description « principale »,
  •   les données complémentaires.

La description principale comprend cinq zones descriptives au maximum :

  • Intitulé
  • Dates extrêmes
  • Présentation du contenu
  • Langue
  • Description physique
  • Cote

Dans ce groupe, les informations saillantes, c’est-à-dire celles qui doivent être facilement repérables par l’œil, sont l’intitulé et les dates extrêmes.
Remarque : traditionnellement, c’est la cote, positionnée dans la marge à gauche, qui sert de repère visuel. Or, cette information est secondaire dans la description. Il serait donc préférable de trouver un autre repère visuel, autour de l’intitulé et des dates extrêmes de l’unité décrite.

Photo

Un outil pour tous les utilisateurs d’Arkhéïa Aide au classement

Photo
 
 
 

Toute cette énergie et plusieurs mois d’échanges ont donc abouti à la création d’un prototype Caderousse. Ce prototype a permis de développer et tester en conditions réelles un outil disponible pour tous les utilisateurs du module Arkhéïa Aide au classement.

Toutes les données sont intégrées dans la base de données et un export, (presque) aussi simple que l’export HTML, permet d’obtenir un objet éditorial soigné, livrable à l’imprimeur en fichier pdf.

Si la partie intégration des images est encore assez expérimentale, il est désormais enfantin de fabriquer un fichier maquetté, compréhensible, lisible et esthétique pour nos lecteurs.

À vous de jouer !

Plan du château ducal de Caderousse, XVIIIe s. - Arch. dép. Vaucluse, 2E9/1225

Publier Caderousse
Part I. Faut-il encore imprimer ?

A l’heure où la présence des services d’archives sur le Web s’impose de façon impérative, comme je l’ai affirmé dans un texte précédent, la salle des inventaires virtuelle est une occasion idéale pour les archivistes de réaffirmer, en utilisant toutes les ressources offertes par la maîtrise raisonnée des nouvelles technologies, la valeur, l’actualité et la pertinence de leurs compétences scientifiques et de leur rôle de médiateurs, qui rédigent et publient des instruments de recherche en ligne.
Cette action, fondamentale pour diffuser la connaissance des fonds, est loin de vider les salles de lecture, comme on le dit parfois. Bien au contraire, en proposant aux chercheurs des espaces d’orientation en ligne de plus en plus riches, l’archiviste met en branle un mécanisme propre à l’incitation à la venue dans les services d’archives, car l’utopie du « un jour toutes les archives seront en ligne » se démonte d’autant plus aisément que les inventaires des sources disponibles montrent leur importance matérielle et leur diversité.

Publier aujourd’hui ? un archaïsme ou un enjeu ?

Mais, de ce fait, la publication traditionnelle des outils d’accès aux documents reste-t-elle un sujet d’actualité ? Est-il aujourd’hui raisonnable d’investir sur la réalisation de répertoires et catalogues imprimés, quand l’accès aux données connaît un essor si considérable ? Ne serait-il même pas abusif, en termes de temps de travail comme en termes de financement, de concevoir des ouvrages en papier pour reproduire à l’identique ce que tout un chacun trouverait sur le net et pourrait imprimer à loisir ?
J’ai la faiblesse de penser que non…

De la nature des instruments de recherche

Car, de même que la « médiation » personnelle, l’accueil en salle du chercheur par l’archiviste est directe et résout nombre de difficultés, ce que l’approche solitaire de la machine permet difficilement, de même instrument de recherche imprimé et instrument de recherche électronique ne sont pas de nature identique et ne connaissent pas le même usage.
L’un est destiné à servir de référence pérenne, l’autre est modifiable dans sa forme comme dans son contenu ; le premier, destiné à la lecture sereine, est fort de ses annexes longues et complètes (introduction historique, bibliographie exhaustive, sources complémentaires détaillées), le second, destiné à la recherche rapide, va s’enrichir de possibilités de rebonds vers d’autres ressources similaires, parallèles, liées hiérarchiquement ou non ; le document papier se feuillette, se parcourt, donne accès aux documents originaux, le document informatique s’interroge, par mots-clés, par facettes ou par type de données, met en évidence les occurrences des mots et des notions, se copie, se diffuse par morceaux, se réutilise…

 

photo

Investiture de portion du péage à sel de Caderousse, 1127 – Arch. dép. Vaucluse, 2E9/506

Imprimer ? quelle gageure !

Mais à l’aune des restrictions budgétaires et du plein emploi des ressources humaines des services capables de s’atteler à une entreprise telle que la publication d’un inventaire traditionnel, et à l’heure où plus aucun ouvrage qui se veut consulté (ne parlons même pas de vente !) ne peut se dispenser d’une riche illustration en quadrichromie et d’une tenue éditoriale impeccable, imprimer un instrument de recherche est un défi redoutable à relever. Qui ne s’est pas arraché les cheveux en relisant pour la quatrième fois les épreuves d’un répertoire numérique avec cinq ou six niveaux de descriptions, que le graphiste de l’imprimerie n’a pas pu correctement identifier et qui se baladent plus ou moins près des marges de gauche, avec des cotes qui viennent mordre l’espace vital de l’analyse, des dates qui s’alignent ou ne s’alignent plus, une table des matières qui a « mangé » un niveau, un titre « veuf et orphelin » !
L’entreprise est d’autant plus risquée qu’elle ne dispense pas de la mise en ligne elle-même de l’instrument de recherche, pour toutes les raisons évoquées plus haut, mais que jusqu’à présent, il n’existait guère de moyen de publier de façon complètement satisfaisante le même objet de base, sans le retravailler entièrement, sur deux supports aussi différents que le Web et le papier, sauf à faire une simple copie pdf de l’imprimé, ou à rebours une sortie médiocre du document html… le tout sans oublier l’instrument de recherche publié en EAD, cherchable et navigable !

Le choix des archives départementales de Vaucluse

Car l’objectif que nous nous sommes fixé aux archives départementales de Vaucluse est celui de produire désormais inventaires et répertoires exclusivement à partir d’Arkhéïa Aide au classement, et de ne mettre en ligne que des fichiers EAD issus des bases générées pour la gestion des descriptions d’archives – même si aujourd’hui la perspective du Web sémantique nous séduit complètement pour la mise en ligne des données.
Mais l’EAD, même transformé à la volée en pages html, n’a rien de très sexy, on en conviendra !
Et lorsqu’un aussi beau fonds que le fonds du duché de Caderousse parvient au terme de son classement, qu’il a fait l’objet d’une telle précision dans ses analyses qu’elles en deviennent articles d’inventaire « à l’ancienne » malgré leurs balises contemporaines rigoureusement normalisées, eh bien tout archiviste normalement constitué a envie qu’il soit valorisé par une publication de qualité et que celle-ci arrive entre les mains de ceux qui sauront apprécier sa richesse et venir exploiter ses ressources.

photo

Plan géométral des terres et îles de M. et Mme de Gramont, an XII – Arch. dép. Vaucluse, 2E9/319

Objectif Caderousse : demander la lune ?

Alors l’objectif pour Caderousse est devenu simple, et compliqué à la fois : il fallait obtenir, à partir d’un outil unique de description conçu dans Arkhéïa Aide au classement, selon la charte de réalisation du corpus des instruments de recherche en ligne du site des archives départementales de Vaucluse :

  •   une publication sur ce site, par l’intermédiaire de Pleade, de l’inventaire encodé en EAD ;
  •   une édition traditionnelle soignée, imprimée et diffusée gratuitement auprès d’un nombre important d’institutions françaises et étrangères, universités et centres de recherche spécialisés comme bibliothèques d’études en sus du réseau « réglementaire » français de distribution des instruments de recherche ;
  •   une possible impression à l’identique à partir d’une imprimante standard ;
  •   et, pour faire simple, l’exemple d’autres départements comme le Tarn aidant, une version Web / html élégante et téléchargeable sur le site des AD.

Le tout avec des caractéristiques propres à chaque publication, sans qu’il soit besoin de reprendre chacune d’entre elles individuellement en cas de modification des contenus, cela va sans dire.

Une nouvelle révolution arkhéïenne ?

D’aucuns (lui le premier, mais il s’en repent !) ont prétendu qu’à une certaine époque, le concepteur d’Arkhéïa s’était mis en tête que l’édition papier des inventaires n’avait plus d’avenir et que seul l’instrument de recherche électronique normalisé sauverait l’archivistique, la vraie, contre les assauts des techniques documentaires.
J’ai dû arriver dans le monde arkhéïen bien après (sourire) ces errances (re-sourire) ou bien alors n’ai-je jamais voulu les entendre – et j’ai bien agi, j’ai eu raison de faire confiance et de ne pas douter que Louis Colombani comprenait en fait parfaitement l’enjeu de « l’éditorialisation » de nos instruments de recherche : un ouvrage publié est une pièce précieuse dans la construction d’une politique de service tournée vers les publics, et un inventaire d’archives au même titre qu’un catalogue d’exposition du Grand Palais ou que les sommes que représentent les Vocabulaires typologiques de l’Inventaire général.
Aujourd’hui Anaphore a conçu la première partie de l’outil qui nous manquait. Certes l’aventure fut engageante pour les archives de Vaucluse et deux de leurs archivistes, Martine Sainte-Marie bien sûr, et Sophie Izac-Imbert, fraîchement arrivée du Tarn. Mais leurs efforts ont produit leur fruit, et l’inventaire du fonds de Caderousse est sorti des presses depuis quelques semaines, premier-né d’une longue série d’instruments de recherche élégants et lisibles ; depuis janvier 2014, les archivistes du palais des Papes impriment même leurs bordereaux de versement en version éditorialisée !
Et je suis sûre que bien d’autres « issues » d’objets arkhéïens divers et variés pourront être inventées à partir des ressources de la nouvelle version d’Aide au classement, surtout lorsque sera finalisée la production d’un export html lui aussi retravaillé pour une mise en ligne « chic », ce qui ne saurait trop tarder, j’en suis convaincue. Nous avons déjà plein d’idées !

photo

Armoiries de la famille de Gramont, XVIIIe s. – Arch. dép. Vaucluse, 2E9/157

Images extraites des Archives du duché de Caderousse XIe-XIXe siècles par Martine Sainte-Marie avec la collaboration de Sophie Izac-Imbert sous la direction de Christine Martella, directeur des Archives départementales de Vaucluse

Imprimer des instruments de recherche normalisés

Introduction

Au tournant du 3e millénaire, lors de l’arrivée du format standard XML-EAD et donc la diffusion des instruments de recherche électroniques, on a pu annoncer la fin des instruments de recherche sur support papier. Nous devons convenir que nous partagions assez largement ce pronostic, peut-être en lointains et naïfs disciples d’Herbert Marshall McLuhan qui annonçait, en 1962, la fin de La Galaxie Gutenberg.

Plus de dix ans se sont maintenant écoulés depuis la diffusion du format EAD en France et force est de constater que la restitution des instruments de recherche sous forme imprimée a la vie dure. C’est indéniablement parce qu’elle répond à un besoin. Et ce besoin n’était pas satisfait, entrainant, comme nous l’a dit récemment un conservateur, une frustration exprimée par nombre de ses confrères.

Continuités et ruptures

De l’instrument de recherche manuscrit, puis dactylographié, puis réalisé avec un traitement de texte à l’instrument de recherche imprimé, on peut observer une continuité évidente : il s’agissait in fine d’offrir à ses publics un document décrivant des documents, accessible sans intermédiaire sur un support papier.

L’informatisation, au-delà du traitement de texte, a introduit des ruptures majeures. D’abord, dans les années 1980-1990 avec les bases de données documentaires. Ensuite, au début du 3e millénaire, avec les instruments de recherche électroniques. Les descriptions de documents seraient-elles désormais inaccessibles sans l’intermédiaire de matériels et logiciels informatiques ?

Lecture humaine et traitement par les machines

Un instrument de recherche, comme document, doit être lisible – sur support papier ou sur écran – par un utilisateur final. Avec l’arrivée de l’informatique, l’instrument de recherche doit également être traité par une machine afin, en particulier, de faciliter l’accès aux informations cherchées, par l’utilisation de moteurs de recherche.

On doit donc faire en sorte que l’instrument de recherche soit :

  • D’une part rendu lisible, compréhensible et agréable à consulter par l’être humain.
  • D’autre part, réalisé de telle manière que les traitements par les machines soient aussi efficaces que possible.

Ces deux objectifs ne sont pas contradictoires mais nécessitent des qualités différentes, complémentaires.

On a pu reprocher aux instruments de recherche réalisés avec des traitements de texte de privilégier la forme (la présentation, destinée à la lecture humaine) au détriment du contenu (en particulier sa structuration). À l’inverse, la production d’instruments de recherche électroniques a pu inciter à négliger un peu leur forme et donc leur lisibilité et, par voie de conséquence, l’envie de les consulter. De plus – mais nous aurons l’occasion d’y revenir – on a finalement eu tendance à privilégier un nouveau formalisme (destiné, lui, d’abord aux machines) : la syntaxe XML-EAD.

Une grande leçon de l’expérience, accumulée au cours d’un peu plus d’une décennie, est qu’on ne doit pas restituer les instruments de recherche sur un seul type de support et suivant un seul format, mais proposer plusieurs types de restitutions : pratiquer ce que l’on appelle, un peu savamment mais précisément, le multi-support et le polymorphisme. Ce polymorphisme répondant à des besoins de lectures et de traitements distincts.

Une demande de restitution sur support papier

Il ne s’agit pas, ici, de refaire l’histoire de l’imprimé et de la lecture, ni de rappeler les avantages de la forme codex.
Mais, simplement, de rappeler une demande exprimée et par les publics et par les archivistes. L’instrument de recherche papier peut être une simple sortie sur imprimante de bureau pour la salle de lecture des archives ou une édition exceptionnelle destinée à mettre en valeur un fonds remarquable, à valoriser l’image du service d’archives et de la collectivité à laquelle il est rattaché. Il peut également être un simple outil pour la relecture et l’amélioration de l’instrument de recherche en cours de réalisation.

Une demande qui peut être satisfaite

Les restitutions d’instruments de recherche à partir d’Arkhéïa Aide au classement ne sont pas limitées à un format : le polymorphisme et le multi-support sont conformes à l’essence d’Arkhéïa. On peut rappeler, en effet, qu’avant l’arrivée du format EAD et des outils de mise en ligne spécifiques aux archives, Arkhéïa générait de multiples formats adaptés aux logiciels documentaires alors utilisés pour la recherche, des fichiers HTML et XML (avant l’arrivée de l’EAD).
Le fait que les descriptions soient stockées comme des données, dans un système de gestion de base de données et non comme un document dans une syntaxe particulière présente un avantage considérable pour les restitutions multiples.

Des objectifs à atteindre

La feuille de route était, en gros, la suivante :

  • Partir des données déjà saisies (en respectant la norme ISAD(G) et les règles fixées par la DTD EAD) dans le module Arkhéïa Aide au classement.
  • Pouvoir, si nécessaire, ajouter des informations complémentaires (comme préface, annexes…) présentes dans les instruments de recherche imprimés mais pas dans les instruments de recherche électroniques.
  • Générer, de la manière la plus automatisée possible, un fichier dans un format facilement imprimable sur une imprimante de bureau ou en passant par les services d’un imprimeur.
  • Que la mise en page soit produite automatiquement, dans le respect de la structure de l’instrument de recherche et en prenant en compte la totalité des éléments de description utilisés, ainsi que les éventuelles illustrations intégrées.
  • Que la mise en page obtenue, malgré sa complexité potentielle, soit claire et lisible, attractive et moderne, ce qui n’est pas facile a priori.
  • Qu’il reste possible, aux archivistes, d’effectuer des retouches de détail (comme pour des coupures malheureuses en fin et début de page)

Une première réalisation et un travail en partenariat

Les archives départementales de Vaucluse ayant programmé l’impression d’un instrument de recherche sur un fonds privé – le duché de Caderousse –, sa directrice, Christine Martella, a accepté de prendre le risque que l’instrument de recherche imprimable soit généré directement à partir d’Arkhéïa plutôt que d’en confier la mise en page à un imprimeur. Cette option a certainement impliqué plus de travail pour le service, des délais plus longs. L’avantage était de disposer ensuite d’une solution réutilisable pour de prochains instruments de recherche imprimés, mais aussi pour leur restitution sur de simples imprimantes du service… et réutilisable pour d’autres services.
Martine Sainte-Marie, auteure de l’instrument de recherche, et Sophie Izac-Imbert ont très activement participé au contenu, à son découpage, aux choix de mise en page, à l’illustration.

L’agence Glanum a fourni un important travail pour l’ergonomie et la création graphique et pour piloter la génération du code de restitution des différentes parties de l’instrument de recherche.

Anaphore a intégré au module Arkhéïa Aide au classement la génération du code correspondant et prévu les paramétrages permettant la généricisation du processus pour qu’il soit facilement utilisable pour d’autres instruments de recherche.

Le choix d’un format de restitution

Le choix d’un format n’allait pas de soi. Le but étant de produire de la manière la plus automatisée possible un document imprimable de très grande qualité, plusieurs options se présentaient, chacune avec avantages et inconvénients.
Les hésitations ont porté sur

  • Le format PDF, relativement facile à générer, largement répandu, utilisé par les imprimeurs, mais présentant l’inconvénient de ne pas être facilement retouchable.
  • Un format lié à un logiciel de PAO, idéal pour la mise en page, utilisé, bien sûr par les imprimeurs, mais nécessitant des compétences présentes seulement dans certains services d’archives.
  • Un format lié à un logiciel de traitement de texte, maitrisé par une grande majorité d’archivistes, facile à retoucher. On pouvait hésiter entre un logiciel open source, comme Open Office, mais qui présente le handicap majeur de ne pas gérer les gros documents et qui, de plus, connait des vicissitudes depuis le rachat de Sun par Oracle.

Le choix final s’est finalement porté très prosaïquement sur MS Word, que chacun ou presque maitrise et qui supporte de très gros documents (nous avons pu tester sur des instruments de recherche de plus de 2.000 pages).

L’instrument de recherche comme un kit assemblable

Outre le corps, présent aussi bien pour les instruments de recherche « classiques » qu’électroniques, l’instrument de recherche imprimé peut présenter des parties additionnelles comme préface, introduction, annexes, index, glossaires, bibliographies, tables de concordance, des illustrations et des matières…
Arkhéïa propose des formulaires pour la saisie des parties « non-EAD » et de les restituer à la demande.
Un pied de page, avec fil d’Ariane et pagination, un calcul automatique de la table des illustrations (à partir des légendes des images) et de la table des matières avec renvois aux pages sont également générés.

La gestion des illustrations

Un instrument de recherche bien présenté peut être attractif. Il le sera d’autant plus s’il est illustré. La gestion des illustrations est donc une partie importante (et délicate) dans la réalisation de l’instrument de recherche.
L’objectif, ici encore, était d’automatiser le plus largement possible la production et la mise en page de l’instrument de recherche.
Les dimensions des images sont recalculées automatiquement en fonction des dimensions originelles et de la largeur disponible (selon le niveau de description).
Une interface de gestion des images a été ajoutée, permettant, entre autres, de scruter des dossiers pour relever les noms et dimensions des images qu’il contient.

Un outil paramétrable pour tout type d’instruments de recherche

L’objectif initial était de permettre des impressions de grande qualité pour des instruments de recherche « classiques ». Cet objectif semble largement atteint à l’écoute des réactions des archivistes qui ont pu examiner les résultats.
Mais, de plus, le souhait a été exprimé d’utiliser les mêmes possibilités pour des bordereaux de versement. Anaphore y a travaillé également.
Afin de permettre des utilisations souples et variées de la génération d’instruments de recherche imprimables, de nombreuses options d’utilisation sont intégrées ou prévues grâce à des paramétrages.

Les étapes suivantes, en fonction des demandes et réactions des différents utilisateurs, consisteront à permettre un encore plus grand nombre de restitutions variées grâce à des paramètres supplémentaires, toujours simples à mettre en œuvre.

Plusieurs formes de disponibilités

L’instrument de recherche au format traitement de texte peut être conservé comme tel et converti au format PDF. Les utilisations possibles en sont nombreuses, certaines ont déjà été évoquées, nous en donnons une petite liste ici :

  • Aide à la relecture, facilitée par une présentation claire, lisible, agréable.
  • Restitution directe sur les imprimantes du service, sans ou avec couleurs, pour la mise en disposition en salle de lecture.
  • Édition par l’intermédiaire d’un imprimeur auquel on fournit un fichier PDF de haute qualité.
  • Mise à disposition, si le service le désire, d’une version PDF téléchargeable par les internautes, leur permettant de disposer d’une version complète de grande qualité.
Arles : Vue depuis les champs de blé, 1888, Vincent van Gogh The J. Paul Getty Museum, Los Angeles

Instrument de recherche, données et document

Données et document : une distinction essentielle

Un instrument de recherche est-il un document ? un ensemble de données ? les deux ? La distinction entre données et documents mérite que l’on s’y attarde un peu. Elle est importante pour les instruments de recherche archivistiques et, bien sûr, pour les archives électroniques. Nous nous intéressons ici au premier point.

Un instrument de recherche imprimé constitue, à coup sûr, un document. À l’inverse, une base de données documentaire est constituée d’un ensemble de données. Un document, même s’il reste modifiable, a quelque chose de fini. En réalité, s’il est modifié, il s’agit d’un nouveau document.

Un ensemble de données peut également être complété, mis à jour. Il peut surtout donner lieu à des traitements automatisés (ou manuels) et être restitué de différentes façons. Les données numériques sont manipulables par les ordinateurs. Il est possible de les assembler de différentes façons, pour obtenir différentes restitutions, différents documents, sans modifier les données d’origine.

Des documents numériques ?

Il faut peut-être, en préambule, s’arrêter un instant sur la notion de document numérique. Au cours d’un séminaire INRIA auquel nous avons participé [4], un intervenant, Stéphane Crozat , a eu cette phrase qui peut paraître provocante :

À l’heure du numérique, le document n’existe plus.

Le document numérique existe-t-il ? Peut-on vraiment parler de document numérique ? La question mérite en tout cas d’être posée et elle n’est pas neutre. Bruno Bachimont dans Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents (p. 34) [5], ne nie pas l’existence du document numérique, mais pointe une de ses caractéristiques essentielles, qui doit interpeller l’archiviste :

Un document numérique n’a pas de mémoire. Il est d’emblée falsifiable et possiblement falsifié. ».

Le même auteur, dans un article à propos des images et des vidéos [6], donne cette définition du numérique qui vaut également plus largement pour d’autres types de données :

Le numérique, dans sa longue histoire, est essentiellement une logique de fragmentation du contenu en unités formelles primitives et de recombinaison de ces unités de manière arbitraire suivant des règles elles-mêmes formelles. Cette définition abstraite renvoie à l’expérience que nous faisons tous aujourd’hui avec nos ordinateurs personnels. Les contenus comme les textes ou les images sont réduits à des éléments formels, des octets d’information codant les caractères ou les pixels ; ces octets sont composés de 0 et de 1, unités fondamentales utilisées pour coder tous les contenus. […] Ces deux symboles sont en soi vides de sens et ne renvoient à rien. […] Par la suite, on peut appliquer des programmes qui manipulent ces 0 et 1. […] Fragmentation et recombinaison constituent donc la tendance du numérique. Tout ce que touche le numérique sera potentiellement fragmenté et recombiné, la recombinaison étant de plus en plus arbitraire vis-à-vis du contenu initial. […] Autrement dit, on passe de l’indexation qui a pour but de retrouver un contenu à une éditorialisation qui a pour but de produire de nouveaux contenus à partir d’éléments pris arbitrairement (c’est-à-dire comme l’on veut, et non pas au hasard !).

Les octets sont invisibles de manière immédiate (sans intermédiaire, contrairement au texte sur papier). L’intérêt de ces données, c’est qu’elles peuvent être manipulées par les outils informatiques. À un moment, ces données manipulées sont restituées par l’intermédiaire d’un écran ou d’une imprimante selon des formes variables. On peut dire que le document n’existe qu’une fois affiché à l’écran, couché sur le papier, sorti de l’imprimante. Il n’y a pas, alors, un document unique, mais plusieurs documents distincts.

Se pose alors la question de la fiabilité du document restitué.

Instrument de recherche : des va-et-vient entre document et données

Mais, revenons aux instruments de recherche, qui sont des documents sur des documents ou des ensembles de données (de métadonnées). Ce qui suit est très schématique. Néanmoins, on peut distinguer quelques grandes étapes dans l’histoire des catalogues de bibliothèque et des instruments de recherche d’archives.

  • Les premiers inventaires, pour les bibliothèques comme pour les archives, étaient des listes manuscrites : des documents.
  • Les catalogues et inventaires dactylographiés et imprimés sont de même nature. En particulier les instruments de recherche archivistiques, avec leur spécificité d’organisation hiérarchique.
  • Sont venus, ensuite, les catalogues sur fiches cartonnées, surtout pour les bibliothèques, qui sont des collections de données.
  • Les premières étapes de l’informatisation ont repris le principe des fiches cartonnées et se sont donc orientées vers la gestion de données descriptives. Cela concernait principalement les bibliothèques, mais, dans les années 1980-1990, certains archivistes ont voulu abandonner les instruments de recherche hiérarchisés pour s’adapter aux technologies du moment, alors développées autour de bases de données documentaires.
  • Avec l’arrivée de la normalisation, dans la deuxième moitié de la décennie 1990, puis du format XML-EAD, au tournant des années 2000, on a assisté à un retour de l’instrument de recherche, électronique cette fois, sous forme de document.
  • L’étape prévisible suivante, avec le très puissant mouvement vers les données liées, semble être un nouveau coup de balancier vers les données. Mais probablement plutôt, une double essence, données et document.

Instrument de recherche : données puis document ?

Il y a peu, quand on classait un fonds d’archives plus ou moins en vrac, on décrivait souvent les dossiers sur de petites fiches papier, puis on regroupait, ordonnait, ces fiches, bref on les organisait pour produire en fin un instrument de recherche. On passait donc par la case données pour aboutir à un document.

Il faut remarquer que la genèse du module Arkhéïa Aide au classement se trouve là. Et, Aide au classement est un logiciel qui permet de saisir, de stocker, d’assembler des données descriptives pour produire un document instrument de recherche.

Mais un instrument de recherche n’est pas vraiment un ensemble de données

Un instrument de recherche fini, qu’il soit imprimé ou même sous forme d’un fichier au format XML-EAD, ne constitue pas exactement une collection de données descriptives. Si l’on prend l’exemple d’un composant <c> d’un inventaire au format EAD, la description peut se limiter à « feuille 1 – 1838 », voire « 1989 ».

En effet, le respect du principe de description à plusieurs niveaux et de non-redondance conduit à répartir les informations nécessaires à la description d’un document donné dans plusieurs composants. Seul un mécanisme dit « d’héritage », généralement complexe, permet de reconstituer un ensemble descriptif signifiant.

Cet état de fait, dont il faut être parfaitement conscient, peut constituer un handicap pour l’intégration des descriptions d’archives dans le réseau des données liées. C’est en tout cas un problème qu’il est nécessaire de traiter.

Stocker des données et générer des documents

L’option prise par Arkhéïa Aide au classement, dès son origine, a été de stocker les descriptions de documents comme données et de les restituer sous forme de documents. Cette option présente de nombreux avantages qui deviennent encore plus évidents avec l’orientation vers les données liées.

Nous passerons ici, puisque ce n’est pas l’objet, sur les nombreux avantages en termes de traitements (par exemple : contrôles, corrections et modifications par lots…) pour nous centrer sur les possibilités de restitutions. Les données stockées peuvent facilement :

  • Être assemblées automatiquement sous formes d’autres données, par exemple des triplets RDF.
  • Être assemblées automatiquement en documents numériques suivant de nombreux formats destinés à différents supports (polymorphisme et multi-support). Par exemple :
    • Format XML conforme à la DTD-EAD 2002
    • Format XML conforme à différents profils spécifiques de la DTD-EAD 2002
    • Format XML conforme au nouveau schéma EAD, version 3 bientôt finalisée
    • Format HTML directement exploitable sur un écran
    • Format pour traitement de texte destiné à l’impression
    • Format PDF issu du précédent destiné au téléchargement par l’internaute
    • Et bien d’autres, sans être limité par le dictionnaire et la grammaire d’un format particulier.

À propos de la constitution de documents élaborés à partir de données ou de fragments de documents, Bruno Bachimont, Stéphane Crozat parlent d’éditorialisation. Jean-Michel Salaün ou Roger T. Pédauque ont introduit la notion de redocumentarisation, qui implique la nécessité de métadonnées pour reconstruire les documents et tracer ces reconstructions.

Ces questions sont seulement effleurées ici et méritent d’être approfondies car elles sont essentielles pour le travail de l’archiviste et, en particulier, pour assurer une pérennisation optimale de son travail de description.


Quelques lectures

  1. Roger T. Pédauque. Le document à la lumière du numérique. Présentation de Jean-Michel Salaün et préface de Michel Melot. – Caen : C&F éditions, 2006. – 218 p. ; 21 cm. – ISBN 2-915825-04-1
  2. Roger T. Pédauque. La redocumentarisation du monde. Préface de Niels Windfeld Lund. – Toulouse : Cépaduès éditions, 2007. – 213 p. ; 21 cm. – ISBN 978-2-85428-728-8
  3. Jean-Michel Salaün. Pourquoi le document importe. Article en ligne : http://www.ina-expert.com/e-dossier-de-l-audiovisuel-sciences-humaines-et-sociales-et-patrimoine-numerique/pourquoi-le-document-importe.html
  4. Stéphane Crozat. « Chaînes éditoriales et rééditorialisation des contenus numériques » in Le document numérique à l’heure du web des données. Séminaire Inria, Carnac 1er-5 octobre 2012. – ADBS Éditions, 2012. – 256 p. ; 24 cm. – ISBN 978-2-84365-142-7. Article accessible en ligne : http://hal.inria.fr/docs/00/74/02/68/PDF/crozat-v2.pdf
  5. Bruno Bachimont. Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents. – Paris : Hermes science publications-Lavoisier, impr. 2007. – 279 p. ; 24 cm. – ISBN 978-2-7462-1369-2
  6. Bruno Bachimont. « Image et audiovisuel : la documentation entre technique et interprétation » in Documentaliste – Sciences de l’information, volume 42, n° 6, 31 décembre 2005 ; pages 348-353. Article accessible en ligne : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2005-6-page-348.htm