Tous les billets avec l'étiquette histoire

Tranche de pin aux Baux de Provence, dans les Alpilles ©Anaphore

Diffusion de données nominatives associées aux images de documents
Le projet des archives départementales de Vaucluse

La réflexion de Louis Colombani sur la préparation de la mise en ligne des registres de recrutement militaires me donne l’occasion de partager via le blog d’Anaphore les idées et les envies des archives départementales de Vaucluse dans ce domaine.

Contrairement, peut-être, à d’autres départements dont la démarche de mise en ligne des images des registres matricules est déjà « ancienne », les archives départementales de Vaucluse ont démarré leur projet dans le cadre de l’incitation des archives de France en janvier 2013. Elles ont donc appuyé leur projet sur les recommandations nationales.
Après le début du projet vauclusien, en février 2014, ont été diffusées des recommandations pour l’indexation des images numérisées des registres de matricules militaires dans le cadre du « Grand Mémorial ».

Les données produites

Numérisation et indexation

Dans le Vaucluse, la série des registres matricules débute en 1864.

Les archives départementales de Vaucluse ont numérisé :

  •   l’ensemble des tables alphabétiques de 1865 (il n’existe pas de table pour l’année 1864) à 1940. Les images des tables de 1865 à 1938 sont consultables en salle de lecture, via l’application Pleade.
  •   les registres matricules de 1864 à 1921, les années 1887 à 1921 étant définies comme prioritaires. Ces images ne sont pas encore diffusées en ligne.

Les archives départementales ont créé une base de données nominative pour les registres matricules des hommes des classes 1887 à 1921 (nés entre 1867 et 1901). Ces registres correspondent en effet aux classes qui ont participé à la Première Guerre mondiale dont les commémorations nationales débutent cette année. La base de données contiendra à terme un total d’environ 60 000 hommes.

Structuration des données

Images

Sur la période 1887-1921, une classe compte 4 registres (plus une table alphabétique).
Ex. La classe 1887 comporte 4 registres, cotés 1 R 1189 à 1192.

Chaque registre compte 500 hommes environ et chaque homme est pourvu d’une fiche d’une page, mais cette page peut être éventuellement augmentée de « retombes », pièces de papier collées et repliées, soit, en tenant compte des « retombes » 500 à 1 000 images par registre.

RetombeExemple de retombe, repliée à gauche, dépliée à droite

 Les images sont au format jpeg et leur nommage est constitué de l’identifiant du service + cote + classe + n° de la photo.
Ex. FRAD084_01R1189_1887_0004.jpg

Les photos numériques sont regroupées par registre. Chaque répertoire d’images est désigné par l’identifiant du service + cote + classe.
Ex. FRAD084_01R1189_1887

Indexation

Les données sont constituées sous la forme d’un fichier Excel alimenté pour une part par le prestataire qui effectue la numérisation, pour une part par le service des archives départementales.
Conformément aux recommandations ministérielles de 2013, les champs retenus sont les suivants :

  • cote,
  • classe,
  • n° matricule,
  • département d’enregistrement du matricule,
  • pays d’enregistrement du matricule,
  • nom,
  • prénoms,
  • année de naissance,
  • département de naissance,
  • localité de naissance,
  • pays de naissance,
  • premier identifiant image,
  • dernier identifiant image.

Seuls trois champs proposés par les Archives de France en 2013 n’ont pas été retenus :

  • bureau de recrutement,
  • département de domiciliation lors de l’enregistrement,
  • localité de domiciliation lors de l’enregistrement.

Par rapport aux recommandations de février 2014, les champs suivants n’ont pas été indexés :

  • profession,
  • degré d’instruction générale.

Le moteur Généalogie/Grand Mémorial

Les archives départementales de Vaucluse souhaitent que leur base de données « registres matricules » soit interrogeable via le moteur de recherche du ministère de la Culture « Généalogie », et plus précisément de sa déclinaison « Grand Mémorial », qui sera capable de prendre en compte tous les champs d’indexation recommandés.
Le moteur ramène les résultats sous la forme de liens vers une notice ou une image, qui doit préalablement avoir été mise en ligne.

La procédure d’intégration débute par un questionnaire de paramétrage technique qui comporte, en annexe, le schéma d’export XML (schéma Nomina) « à respecter, autant que faire se peut ».

Deux points doivent donc être réglés :

  • la mise en ligne des notices et/ou des images des registres matricules,
  • la concordance entre le fichier Excel d’indexation et le schéma Nomina.

Mise en ligne des notices et/ou images des matricules

La solution qui a paru techniquement la plus pertinente à la Direction des services informatiques est de relier le moteur à une notice locale, elle-même reliée à une ou plusieurs images.
C’est le choix fait par les services qui ont déjà intégré Généalogie (2 à ce jour pour les matricules, l’Ain et la Mayenne).

Ci-dessous, exemple de l’Ain : recherche sur le nom Martin.

Ce choix nécessite l’existence d’une application locale pour l’affichage des notices nominatives et des images liées. À ce jour, les AD de Vaucluse ne disposent pas d’un tel outil.
La société Anaphore a développé une application, dénommée « Bach », capable de prendre en compte et de mettre en ligne à la fois les données nominatives et les images.

Version de démonstration de Bach

Concordance avec le schéma Nomina

La DSI du département de Vaucluse a proposé de générer, à partir du fichier Excel, le fichier XML conforme au schéma Nomina. Afin de préparer cette transformation, les archives de Vaucluse ont modifié le fichier Excel de départ pour qu’il comporte toutes les données attendues par le schéma Nomina.

Extrait de la base de données Excel conforme au schéma Nomina

De son côté, la société Anaphore a également prévu de développer dans son progiciel Arkhéïa-Aide au classement la possibilité d’importer les données nominatives saisies dans Excel pour pouvoir restituer facilement pour les utilisateurs d’une part un fichier XML Bach, d’autre part un fichier XML Nomina (pour Généalogie/Grand Mémorial).

Le schéma suivant établit les correspondances entre le schéma conceptuel Nomina et les données créées par les archives départementales.

La base vauclusienne comprend 2 données de localisation : lieu d’enregistrement du matricule et lieu de naissance ; et 2 données date : année d’enregistrement, qui est en fait la classe d’intégration du jeune homme et année de naissance. Elle comporte également 3 compléments : l’indication de présence d’une image, le n° de matricule et la cote.

Correspondance entre la BDD des AD de Vaucluse et le schéma Nomina

Le schéma Nomina attend autant de fichiers XML que de matricules (donc autant de fichiers XML que de lignes de la base de données nominative). Ceci permet le moissonnage régulier des données modifiées uniquement (au lieu de réimplanter l’ensemble de la base, y compris les données n’ayant subi aucune modification).

Attentes vis-à-vis de l’application Bach d’Anaphore

P
our la réalisation de leur projet, les besoins des archives départementales de Vaucluse sont d’un outil :

  • de mise en ligne des données nominatives
  • qui garantisse la sécurité des données nominatives qu’il contient
  • de mise en ligne des images des registres, reliées aux données nominatives, qu’il y ait une ou plusieurs images reliées à un matricule
  • qui intègre la validation d’une licence-clic pour accéder aux images par cohérence avec les autres accès aux images offerts par les archives départementales de Vaucluse
  • compatible avec l’utilisation du moteur Généalogie/Grand Mémorial. Bach doit être capable d’afficher la notice de résultat correspondant à l’interrogation formulée dans Généalogie/Grand Mémorial
  • proposant des URL pérennes pour les données reliées à Généalogie/Grand Mémorial
  • qui permette d’ajouter des données (nominatives + images) au fur et à mesure de l’avancement du projet
  • qui permette de faire des corrections et sur les données et sur les images si nécessaire (ajouts, modifications, suppressions)
  • qui permette que ces modifications soient prises en compte par Généalogie/Grand Mémorial.

Partenariat avec le Gard

Les archives départementales du Gard s’étant déjà décidées à utiliser Bach pour mettre en ligne leurs registres matricules dans quelques mois, les archives de Vaucluse ont souhaité s’associer à la démarche, afin de créer sur leur site Internet un espace complémentaire de consultation de leurs données nominatives.

Calendrier de mise en œuvre

La numérisation des registres matricules est achevée pour les classes 1887-1921 ; l’indexation en revanche est encore en cours chez le prestataire et en interne.
Toutefois, une partie des données et des images est déjà disponible. Il s’agit des images et de l’indexation correspondant aux matricules des classes 1887-1895 (registres 1 R 1189 à 1 R 1230), soit 15 900 hommes environ.

Deux temps forts sont prévus en 2014 dans le cadre de la commémoration de la guerre 14-18 : le 14 juillet et le 11 novembre.

La mise en ligne se fera de manière progressive, mais les Archives départementales de Vaucluse souhaitent pouvoir diffuser les premières données nominatives (au moins les 15 900 premiers matricules et davantage si possible) pour les célébrations du 14 juillet 2014.

Réservistes de 1870, hôtel des Invalides, Paris. Pierre Georges Jeanniot. Wikipedia

Préparation de la mise en ligne des registres de recrutement militaire

Les registres de recrutement militaire

Voici une présentation rapide des registres de recrutement, dits registres matricules, faite à partir d’extraits de la page du service historique de la Défense.

Depuis le début du 19ème siècle, tout Français de sexe masculin a été inscrit sur au moins un tableau de recensement.
[...]

Les premiers registres matricules apparaissent en 1859, mais les séries sont continues à partir de 1867. Ces documents sont établis par les bureaux de recrutement, dont le ressort peut englober des cantons situés dans des départements limitrophes ; ils sont composés d’une succession de fiches individuelles, qui fournissent les renseignements suivants :
• nom, prénom, état civil détaillé ;
• signalement (couleur des cheveux et des yeux, forme du front, du nez et du visage, taille, marques particulières) ;
• renseignements divers sur les qualités, diplômes et aptitudes de l’individu ;
• degré d’instruction ;
• observations : on indique dans cette case si l’inscrit est soutien de famille, s’il demande un sursis d’incorporation, s’il est fils d’étranger, naturalisé, réintégré, etc. Sont également précisés les changements de résidence et l’adresse précise de l’individu, ou encore les maladies dont il souffre.
[...]

À partir de 1905 et la fin du tirage au sort, tout individu de sexe masculin doit se faire recenser auprès du bureau de recrutement (appelé ensuite bureau du service national) dont relève son domicile. Il entre alors dans une classe, dont le numéro correspond à l’année de ses vingt ans […] et se voit attribuer un numéro de matricule et un dossier. Ces dossiers, regroupés en registres matricules, sont conservés par le bureau du service national…

On pourra aussi consulter le billet Tour de France des matricules sur le blog « Sources de la Grande Guerre ».

La mise en ligne des registres matricules

Ces documents constituent une source privilégiée pour les généalogistes en ce qu’ils permettent d’accéder à une description assez détaillée des conscrits. Ils peuvent également constituer une source statistique et démographique.
Un certain nombre de services d’archives départementales ont mis en ligne leurs registres matricules. Cette mise en ligne peut se faire suivant plusieurs niveaux de précision.

  •   Seulement les tables alphabétiques des noms.
  •   Avec les registres eux-mêmes.
  •   Avec indexation nominative des conscrits.

Une carte de France régulièrement tenue à jour de ces mises en ligne est visible sur le blog de La Revue française de Généalogie.

Le centenaire de la Grande Guerre a accéléré le mouvement de mise en ligne et le ministère de la culture l’a encouragée. Dans cet objectif, les ministères de la culture et de la défense ont saisi la CNIL pour qu’elle autorise la mise en ligne des registres jusqu’en 1921. Voir, par exemple sur le site GénéInfos, et la délibération de la CNIL n° 2013-281 du 10 octobre 2013.

Le portail Généalogie

Présentation

Précisons que ce portail ne concerne pas que les registres matricules mais, comme son nom l’indique, des sources pour la généalogie.
Le projet a été lancé en 2008. On pourra trouver une présentation sur le blog « Comité d’Histoire du Haut-Pays ».

Un moteur très puissant permet de faire des recherches sur les noms et prénoms et de filtrer ensuite, si nécessaire, les réponses à l’aide de facettes : précision du nom, pays ou département, dates, types de documents, bases de données (origine des descriptions).
Les résultats apparaissent sous la forme d’une liste avec les colonnes : nom, prénom, date, lieu, type de document. Quand il existe un document numérique, une icône sert de lien vers le document ou sa description sur le site du service qui le conserve.
Ci-dessous une illustration d’un extrait de réponses à une requête.

Portail Généalogie - extrait de réponses à une requête

Quelques éléments techniques

Le ministère de la culture, service interministériel des Archives de France, a élaboré un « modèle de données normalisé de données généalogiques (Nomina) » et un schéma XML de même nom.
Ci-dessous, une illustration de ce modèle extraite du document « Moteur « Généalogie » : questionnaire de paramétrage technique ».

Photo

L’indexation des registres matricules

Le service interministériel des Archives de France a rédigé un modèle de cahier des charges type pour la numérisation des registres de matricules militaires.

Bien que cela ne soit pas son objectif principal, ce document donne, en annexe, des recommandations pour une « prestation d’indexation nominative ». Il précise les problèmes posés par cette indexation nominative (coût, qualité des prestations, questions juridiques – le document est antérieur à la délibération de la CNIL n° 2013-281 du 10 octobre 2013). Il propose, pour les cas d’indexations les plus fines, un tableau avec les éléments ci-dessous :

  •   Cote
  •   Classe
  •   N° matricule
  •   Bureau
  •   Nom
  •   Prénoms
  •   Année de naissance
  •   Département de naissance
  •   Localité de naissance
  •   Département de domiciliation lors de l’enregistrement
  •   Localité de domiciliation lors de l’enregistrement
  •   Premier identifiant d’image
  •   Dernier identifiant d’image

Le travail d’Anaphore

Actuellement, deux services d’archives départementales ont demandé l’assistance d’Anaphore pour la préparation et la réalisation de la mise en ligne de leurs registres matricules en lien avec le portail Généalogie.
Nous vous tiendrons informés de l’avancement de ce chantier qui est, d’ores et déjà, bien engagé.

Si d’autres services sont intéressés, ils peuvent, bien entendu, nous contacter et nous pourrons échanger sur le sujet.

2014 : année d'éclosion... © Myriam Pauillac

Pourquoi ce blog ?

Ce blog, et sa nécessité procèdent d’un constat, celui d’un certain nombre d’entre vous, qui nous connaissent, que nous avons l’occasion et le plaisir de rencontrer, avec qui nous avons l’honneur de collaborer, souvent très étroitement :

vous ne communiquez pas, on n’entend pas parler de vous, alors-même que nous savons que vous travaillez, que vous veillez sur les perspectives d’évolution de notre métier, que des réalisations importantes sont en cours et même en phase d’achèvement.

Ce blog aura sans doute un fil conducteur, presque un slogan : « l’histoire continue », histoire et histoires que nous déclinerons suivant plusieurs volets.
Ce blog est celui d’Anaphore. Anaphore est une aventure en petite partie personnelle et en grande partie collective. Les propos qui y seront tenus ne seront pas seulement les miens. Ici, toutefois, c’est d’abord le je qui va s’exprimer.

J’ai commencé à travailler dans les archives en 1979 et, jusqu’en 1990, dans un service d’archives départementales. En 1990-1991 a commencé l’aventure Arkhéïa ; puis, en 1993, l’aventure Anaphore.
1993, déjà un peu plus de 20 ans. La plupart de mes interlocuteurs de l’époque avaient entre 30 et 60 ans. Les mêmes, aujourd’hui ont donc entre 50 et 80 ans. Alors que les trentenaires d’aujourd’hui avaient 10 ans alors. Ce constat rejoint, d’une certaine façon, celui, pertinent et élégant, d’un confrère qui, à la question « Avez-vous des concurrents ? », répondait : « Sur le secteur des archives publiques nous faisons face à des acteurs plutôt vieillissants. ». Lui-même est sans doute trop jeune pour avoir écouté Georges Brassens chanter Le temps ne fait rien à l’affaire.

On a trop tendance, à l’époque de l’immédiat, à se comporter comme si l’histoire se terminait aujourd’hui. Je prendrai deux exemples rencontrés.

Dans les années 1990, quelques archivistes modernes affirmaient qu’il fallait savoir s’adapter et adapter ses pratiques, son métier, aux nouvelles technologies. Celles-ci étaient alors représentées par les logiciels documentaires. Il fallait renoncer à nos instruments de recherche au bénéfice des bases de données documentaires. Comme si l’évolution des technologies d’accès à l’information allait s’arrêter tout à coup, si on atteignait là le terme d’une histoire (il est vrai que, dans les années 1990, les thèses de Francis Fukuyama sur la fin de l’histoire connurent un grand succès).

La fin de cette période nous semble avoir été sifflée par la publication, en 1999, de l’ouvrage de Christine Nougaret et Bruno Galland, Les instruments de recherche dans les archives (La Documentation française).
Les années 2000 ont donc été celles du grand retour aux instruments de recherche, avec, en particulier, l’adoption de la norme de description archivistique ISAD(G), des formats standard s’appuyant sur le langage XML, d’outils informatiques pour produire de tels instruments de recherche et d’outils spécifiques au métier des archives pour mettre en ligne et interroger ces instruments de recherche. Les Archives de France, les Archives nationales et Anaphore ont joué un rôle très important dans la promotion de ces norme et format standard et Anaphore a eu un rôle de pionnier défricheur pour les outils de production et de restitution. Mais, il ne s’agit pas ici, de faire dans la nostalgie car, là encore, l’histoire continue.

Elle continue, et pourtant !

Anaphore a d’abord provoqué une sorte de révolte d’une bonne partie de ses utilisateurs en voulant « imposer » l’adoption de normes et d’instruments de recherche électroniques. Sans doute, y a-t-il eu, de notre part, des excès, un peu trop d’enthousiasme, mais l’intuition de la voie à suivre a été amplement confirmée par la suite.

En avançant dans les années 2000, les normes et formats standard se sont finalement imposés. Peut-être trop, en tout cas de manière trop formelle. Ils sont devenus pour les uns presque un dogme, pour d’autres, un argument commercial. Avec la tentation, là aussi, de figer des évolutions, encore une fois d’arrêter l’histoire !

Parmi les très nombreux arguments en faveur des formats standard (pérennité, universalité : arguments que l’on doit aujourd’hui nuancer) il en était un d’essentiel : pouvoir attacher moins d’importance qu’on ne le faisait précédemment (par exemple avec les traitements de texte) à la forme (la présentation, destinée à la lecture humaine) et plus aux contenus. Mais, pour certains, on est retombé dans un autre formalisme, syntaxique celui-là, et donc même plus destiné à la lecture humaine. Il n’est malheureusement pas du  tout exagéré d’écrire que l’on arrive à privilégier l’emploi ou le non-emploi de tel attribut à la lisibilité, à la compréhensibilité, de l’instrument de recherche.

L’histoire continue : comme les technologies, comme les outils, les formats évoluent, et même les normes. Il est très intéressant, à cet égard, de regarder ce qu’on fait nos « cousins » bibliothécaires.

Pour résumer, très schématiquement,

  • Les années 1990 ont été celles de la large diffusion de l’outil informatique dans les services d’archives. Les formats informatiques étaient alors propriétaires.
  • Les années 2000, dans le contexte du formidable développement du Web des documents, ont vu la mise en œuvre de normes, le remplacement des formats locaux propriétaires par des formats internationaux métier, la diffusion plus large d’outils de restitution spécifiques au métier des archives et, pour certains, l’affinement de leurs méthodes de travail.
  • Les années 2010 sont celles du développement du Web des données, du travail sur des modèles conceptuels, du remplacement des formats métier par des formats universels, d’un nouvel affinement des méthodes et du renouvellement des outils de mise en ligne.

Ces changements d’outils et, même, au-delà, de paradigme, ont en effet de quoi donner le tournis. Pourtant, des fondamentaux, essentiels, demeurent : les objectifs de l’archiviste, ses rôles, son travail de fond, les méthodes de description. Simplement, il faut savoir distinguer les fondamentaux à conserver des outils (au sens large) qui se renouvellent. Et, il est essentiel de ne pas se rendre prisonnier des modes, des outils de l’année, des formats de la décennie car, alors, les déconvenues sont assurées à terme.

On peut décider de s’arrêter au bord de la route.
On peut décider de se jeter dans le fleuve et de se laisser emporter par les tourbillons des évolutions technologiques.

Anaphore navigue sur ce fleuve en tenant le cap qui conduit vers les réalisations de demain. Car nous n’avons pas oublié que l’archiviste est d’abord un passeur entre hier et demain. Et, le rôle de l’éditeur de logiciel (et plus) est de l’accompagner dans cette voie, de lui éviter les embranchements sans issue pour mener à bien sa noble mission. Son rôle est également de prendre en charge, le plus largement possible, les aspects liés à la technique et aux formats (contrairement à ce qui a eu tendance à se faire à l’arrivée du format XML-EAD) pour que l’archiviste puisse se consacrer aux fondamentaux de son métier.

Ce blog présentera donc les réalisations d’Anaphore, mais aussi ses projets, les résultats de sa veille et de ses réflexions. Il est, bien sûr, également ouvert à vos contributions.

 

Louis Colombani

Janvier 2014