Tous les billets avec l'étiquette autocomplétion

Exemple de facettes graphiques pour les dates et les lieux dans un moteur de recherche de nouvelle génération

Du côté des bibliothèques : une nouvelle génération de moteurs de recherche

L’informatisation, comme l’adoption de formats standard ont été plus rapides dans les bibliothèques que dans les archives. À cela, les raisons sont nombreuses : l’absence de la complexité liée aux niveaux de description, la possibilité – très tôt mise en œuvre – de partager des descriptions pour de mêmes documents, des moyens beaucoup plus importants (nombre de bibliothèques de différentes catégories, de personnes, de chercheurs, par exemple dans les universités)…
De très importantes évolutions ont été engagées depuis les années 1980 et ont maintenant bien commencé à se mettre en place, sur les moteurs de recherche, les modèles conceptuels, les formats.
Ainsi, beaucoup de travaux de recherche, d’expérimentations et de réalisations ont été conduits. Nous pouvons largement tirer parti de toute l’expérience accumulée. Pour autant, il faut également savoir résister à la tentation d’un simple mimétisme qui ne peut qu’aboutir à des résultats inadaptés pour les archives.

Nous nous proposons donc de commencer ici une petite série de billets de veille sur quelques types de travaux et nous tenterons ensuite de réfléchir à des manières d’en tirer parti pour notre métier.

Ce premier document portera sur les catalogues de bibliothèque.

Sources :
Le texte qui suit est très largement redevable à l’ouvrage collectif : Catalogue 2.0 : The future of the library catalogue. Edited by Sally Chambers. Facet Publishing, 2013. ISBN 978-1-85604-716-6 Et plus particulièrement des deux premiers articles de l’ouvrage : Next-generation catalogues : what do users think ? / Anne Christinsen. pp. 1-15. Making search work for the library user / Till Kinstler. pp. 17-36.

Le titre de l’ouvrage n’est pas forcément bien choisi, d’une part car il peut entraîner une confusion avec le web 2.0 (qui n’a pas grand-chose à voir), d’autre part parce que les outils présentés sont notés comme appartenant à une troisième génération.

Du tiroir à fiches aux catalogues de troisième génération

Les tiroirs à fiches

Notre point de départ est constitué par les tiroirs de fiches cartonnées. Rappelons qu’outre les fiches qui ne comportaient que les notices catalographiques et que l’on classait par titres, il existait d’autres collections où les fiches étaient classées par vedettes auteurs, vedettes matières. Si ce système n’était pas très performant pour la recherche (pas de recherche multicritères, par exemple), il permettait de partir à la découverte des ressources de la bibliothèque en parcourant ces fichiers.

Les catalogues informatisés de première génération

Les premiers catalogues informatisés sont apparus dans les années 1970. Il s’agissait, en fait, d’une simple transposition des catalogues par fiches. Ils permettaient une navigation alphabétique sur des index comme auteurs, titres, sujets.
De plus, ils ont été réalisés dans un but de gestion interne, plus qu’à destination des publics et se sont donc peu préoccupé des besoins des utilisateurs.

La deuxième génération et les OPAC

On observe deux grandes étapes.

  • Dans les années 1980, s’est développée une seconde génération avec de plus grandes possibilités de recherche par index, de recherches multicritères utilisant les opérateurs booléens, le parenthésage, les masques et troncatures.
  • Dans la deuxième moitié des années 1990, ces catalogues ont évolué, principalement au niveau de l’interface afin d’être consultables sur Internet. C’est le développement des OPAC (Online Public Access Catalogues). Ces OPAC restent sur les mêmes principes que leurs prédécesseurs immédiats.

La troisième génération

C’est celle qui est en train de se développer et que nous présenterons dans ce qui suit.
Mais, nous allons faire maintenant un petit retour en arrière sur ce qui a permis d’arriver à cette troisième génération.

Le modèle booléen et ses limites

C’est le modèle sur lequel s’appuient les moteurs de deuxième génération et qui restent actuellement très largement les plus répandus dans les bibliothèques (et, bien sûr, dans les archives).

Le principe du modèle

Le principe fondamental est qu’il doit y avoir correspondance exacte entre les termes de la requête et ceux contenus dans les documents indexés. Les Anglo-Saxons parlent d’exact matching.
On ne rappelle pas ce que sont les opérateurs booléens, bien connus de chacun.

Les conséquences

On a un principe de tout ou rien. Pour une requête donnée, on a deux possibilités :

  • Soit il existe au moins un document qui correspond exactement aux termes de la requête.
  • Soit aucun document ne correspond exactement.

Les problèmes posés par ce modèle

  • De nombreux utilisateurs ne maîtrisent pas la formulation de requêtes booléennes.
  • Des requêtes peuvent ne donner aucune réponse, d’autres un très grand nombre, sans que l’utilisateur ne puisse y faire grand chose.
  • Toutes les réponses sont considérées par défaut comme équivalentes (pas de classement par pertinence).
  • Tous les termes de la requête sont équivalents.
  • Pour une requête avec l’opérateur OU, un document contenant un seul terme est considéré comme aussi pertinent qu’un document qui en contient plusieurs.
  • Pour une requête avec l’opérateur ET, si un seul terme manque dans un document, le document n’est pas considéré comme pertinent.
  • Le nombre de réponses obtenues est, le plus souvent, soit trop petit, soit trop grand pour être vraiment exploitable.
  • Si le nombre de réponses est important, on doit explorer l’ensemble de la liste des réponses.

Des études sur les attentes des utilisateurs

Les limites des catalogues de première et deuxième génération et les besoins d’évolution sont connus depuis très longtemps. Dès 1963, Don R. Swanson avait publié un article  Dialogue with a catalogue  [1] qui listait déjà une bonne partie des fonctionnalités des catalogues de troisième génération.
Les études se sont développées au cours des années 1980 et de la décennie suivante, puis généralisées au cours des années 2000, suivant plusieurs méthodes.
Au cours de ces années 2000, ont été lancées des recherches anthropologiques et ethnographiques sur les comportements des usagers des bibliothèques.
À la fin des années 2000, ont été mis en place des usability studies (études d’usabilité) et des focus groups (groupes spécifiques) : les utilisateurs testent et commentent les fonctionnalités développées au cours de cycles courts. Ces utilisateurs sont généralement en petit nombre (6 à 12).
D’autres études ont été aussi lancées à grande échelle, ainsi le rapport 2009 de l’OCLC [2] Online Catalogs : what users and librarians want qui s’est appuyé sur plus de 11.000 participants, en 2011 une étude allemande sur près de 24.000 participants…

Les résultats de ces études

Ces études ont servi à cerner les principales demandes des utilisateurs et à les tester.
D’une manière générale, les utilisateurs restent très peu de temps sur les catalogues, lancent des recherches simples et ne regardent que les premiers résultats.
Ci-dessous, une liste des principales attentes.

L’enrichissement des catalogues

Les notices catalographiques ne sont pas suffisantes. Les utilisateurs souhaitent disposer aussi de tables des matières, de sommaires, de résumés, d’extraits.
À l’inverse, les possibilités d’enrichissement par les utilisateurs eux-mêmes sont moins mises en avant. D’autant qu’ils ne sont pas prêts à y consacrer de leur temps.
Les étudiants et enseignants souhaitent des informations descriptives et non des appréciations ou critiques.

Les qualités pour la recherche

En premier, la facilité d’utilisation qui peut être apportée par :

  • L’autocomplétion c’est-à-dire la proposition automatique de compléter une chaîne de caractères saisie.
  • La vérification orthographique (spell checking) ou tolérance orthographique
  • Les suggestions.
  • Les recherches à facettes.
  • Le filtrage sur les documents disponibles en version électronique ou dans une bibliothèque proche géographiquement.

Les recherches à facettes sont les plus largement implémentées (depuis 2006), y compris sur des sites marchands (cf. : Pap.fr).
A priori, les utilisateurs préfèrent saisir du texte « à la Google », mais les études de satisfaction sur l’utilisation des facettes sont très positives. Les utilisateurs se les approprient intuitivement. Bien entendu, la conception, en amont, des facettes, leur ordre, le choix de leurs étiquettes, jouent un rôle très importants dans l’efficacité de la recherche et la satisfaction des utilisateurs.
Des débats se poursuivent néanmoins sur l’abandon des formulaires de recherche avancée au bénéfice du seul système à facettes.
Les utilisateurs habitués aux anciens OPAC sont d’abord déroutés par les nouvelles interfaces auxquelles ils reprochent d’être trop simples ! Mais, ils s’y habituent rapidement et une étude de 2011 montre que les utilisateurs des nouvelles interfaces ont 15 fois plus tendance à affiner leurs recherches que les utilisateurs d’interfaces traditionnelles. Les facettes sont des outils efficaces pour traduire les besoins d’information en requêtes.
Néanmoins, les outils de gestion de vocabulaire comme les thésaurus restent des aides intéressantes pour la recherche, en particulier pour élargir les recherches de manière transparente. Ces outils peuvent opérer en arrière-plan, sans que les utilisateurs aient besoin de les manipuler. La question de formats ouverts est ici essentielle pour leur récupération à partir d’outils d’ancienne génération.

Les résultats de recherche

La présentation des résultats de recherche est très importante. Et, surtout, le classement par pertinence des résultats : les utilisateurs souhaitent avoir les résultats les plus pertinents en haut de liste, surtout quand ces résultats sont nombreux. Les anciens catalogues ne le permettent pas.

La découverte

Les OPAC ne permettaient plus la « découverte », comme les vieux tiroirs à fiches ! Les catalogues de nouvelle génération sont aussi parfois nommés « outils de découverte ». Exemple : stacklife.law.harvard.edu et StackLife shelflife-alpha

Accès aux documents

Les utilisateurs souhaitent avoir accès au document, en tout cas à l’information qu’il contient. C’est une des principales raison du succès de Google qui donne accès au texte et pas seulement à une référence.
Si les catalogues peuvent donner accès au document en ligne, l’utilisateur est comblé.
Au minimum, le catalogue doit préciser où le document est accessible. Certains sites demandent à l’utilisateur de se localiser et indiquent les bibliothèques les plus proches où le consulter.
Il est intéressant de pouvoir filtrer les recherches sur les documents accessibles en ligne.

L’importance de la qualité des descriptions

Les miracles n’existent pas. Quel que soit le type de moteur utilisé, les résultats de recherche sont toujours d’abord fonction de la qualité des descriptions.

L’interface

L’ergonomie, le dessin de l’interface, la présence de représentations graphiques (frise temporelle, représentations cartographiques) permettant des recherches visuelles très appréciées.

Délaissement des OPAC

Les résultats des premiers travaux de recherche n’ont pas été suivis de réalisations. De plus, le développement d’Internet a offert aux utilisateurs de nouveaux moteurs de recherche. Du coup, ils se sont détournés des OPAC.
On peut se demander pourquoi ces fonctionnalités ont mis tout ce temps à être implémentées.
Il semble que les éditeurs de logiciels de bibliothèque ont joué un rôle important dans ce retard en se préoccupant principalement de développer leur propre marché (cf. le diagramme Library Technology Guides).

Les bibliothécaires, du moins certains d’entre eux, ont voulu réagir à la « concurrence » du Web et à l’abandon de leurs catalogues en les redéveloppant, mais aussi en associant des communautés d’utilisateurs à la démarche.
Il faut aussi signaler le rôle important joué par le moteur de recherche open source Solr qui a permis aux bibliothécaires de commencer à développer leurs propres solutions.

Les catalogues de troisième génération

Tous les travaux de recherche évoqués ci-dessus ont finalement abouti à la troisième génération qui, bien qu’encore minoritaire, a commencé à s’implanter sérieusement.
Cette génération repose sur un nouveau modèle, différent du modèle booléen, et un certain nombre de fonctionnalités que nous allons maintenant présenter rapidement.

Le modèle vectoriel

Principe

Le principe fondamental est qu’il doit y avoir correspondance optimale entre les termes de la requête et ceux contenus dans les documents indexés (et plus correspondance exacte, comme dans le modèle booléen). Les Anglo-Saxons parlent de best matching.
Le moteur compare l’ensemble des radicaux des termes présents dans la requête à l’ensemble des radicaux des termes présents dans la base de données, effectue une mesure de leur proximité et délivre une liste de réponses triées suivant ce critère de proximité. Ainsi, les documents correspondant le mieux à la requête sortent au début de la liste. Il s’agit donc d’un calcul de proximité entre la requête et les descriptions, que l’on appelle pertinence (relevance en anglais).
Une des façons les plus utilisées pour calculer la pertinence s’appuie sur le modèle vectoriel (vector space model).
Pour résumer, on assigne un poids à chaque terme présent dans une description. Il s’agit d’une valeur numérique qui correspond à l’importance du terme dans la description. Chaque document et chaque requête sont caractérisés par la liste de ces valeurs numériques qui forment un vecteur. Ils peuvent donc être traités mathématiquement comme des vecteurs dans l’espace (Modèle vectoriel).
Dans un espace vectoriel, il est possible de calculer la distance entre le vecteur qui correspond à la requête et ceux qui correspondent à des descriptions. Il s’agit d’une mesure de similarités, qui s’appuie souvent sur la valeur du cosinus entre deux vecteurs. Une valeur 1 coïncide avec une correspondance exacte. Ensuite, la valeur diminue à mesure que les vecteurs s’éloignent : 0 correspond à un angle de 90° et -1 à un angle plat (vecteurs diamétralement opposés).

Poids des termes

En première approche, un terme recherché qui est souvent présent dans une description, peut être considéré comme important pour le document correspondant à cette description.
On utilise la notion de term frequency, TF, fréquence d’un terme dans un document, pour mesurer le poids de ce terme.
Toutefois, un terme très fréquent dans l’ensemble du corpus des descriptions, un mot très commun, est moins intéressant pour la recherche. Ces termes ont un poids diminué. Pour cela, on utilise la notion d’inverse document frequency, IDF. L’IDF d’un terme est calculée à partir du rapport entre le nombre de descriptions présentes dans la base et le nombre de descriptions où le terme est présent. Ainsi, les termes présents dans peu de descriptions ont plus de poids que les termes fréquents.
Le poids global d’un terme est le produit de TF et IDF aussi nommé poids TF-IDF. Les termes recherchés très présents dans une description mais globalement peu présents dans l’ensemble des descriptions ont un poids TF-IDF élevé.

Des moteurs comme Solr permettent de paramétrer le calcul des poids. Par exemple, pour une description de documents d’archives, on pourra augmenter le poids des termes présents dans les descripteurs, dans l’intitulé et on diminuera celui des termes présents dans un commentaire, voire on annulera celui de termes présents dans une référence bibliographique.

Possibilités complémentaires

Les moteurs de nouvelle génération permettent généralement également l’emploi, si nécessaire, de la logique booléenne et n’interdisent donc pas la mise en œuvre du principe exact match qui peut avoir son intérêt dans certains cas (on cherche exactement tel terme ou expression…).

Les autres fonctionnalités des moteurs de troisième génération

En dehors du changement fondamental de modèle – de booléen à vectoriel – d’autres fonctionnalités sont implémentées au bénéfice des utilisateurs.

Les suggestions

Afin d’éviter autant que possible l’absence totale de réponse, les moteurs de nouvelle génération proposent des suggestions, dans deux circonstances :

  • En cours de frappe. On parle alors d’autocomplétion ou de suggestion ou de live search.
  • Dans les cas où aucune réponse n’est trouvée, ou même en complément des réponses trouvées.

Il faut retenir que les suggestions peuvent être de trois types.

  • Elles peuvent s’appuyer sur un dictionnaire a priori. Dans ce cas, un terme présent dans ce dictionnaire et utilisé pour la recherche peut n’être présent dans aucune description.
  • Elles peuvent s’appuyer sur l’ensemble des termes présents dans les descriptions de la base. On est alors sûr que ces termes vont retourner au moins une réponse.
  • Elles peuvent s’appuyer sur des requêtes précédentes qui ont abouti à des réponses.
Les facettes

La recherche à facette « donne aux utilisateurs les moyens de filtrer une collection de données en choisissant un ou plusieurs critères (les facettes). Il n’est donc pas tant question de recherche que de filtrage » [3].

Le principe de feuilletage de points d’accès (auteurs, sujets…) dans les fiches cartonnées des bibliothèques, qui permettait de découvrir les ressources disponibles, a été abandonné avec les premières générations de catalogues numérisés.
Les facettes remettent au gout du jour ce principe. Toutefois, il existe des différences importantes entre l’utilisation de tiroirs de fiches et l’utilisation de facettes. La recherche à facettes permet de combiner la recherche sur un ou des mots saisis et l’utilisation des facettes. L’utilisateur peut feuilleter, affiner sa requête grâce à différentes catégories de facettes.
Par rapport aux formulaires de recherche avancé qui sont préconstruits, l’utilisateur peut assembler lui-même les critères qu’il veut (dans la limite, bien entendu, de ceux qui sont disponibles).

Les outils graphiques

Certaines facettes peuvent être présentées sous forme graphique.

  • Ainsi de frises temporelles
  • Ainsi de cartes utilisables tant pour l’interrogation que pour la localisation de résultats.

La possibilité d’utiliser des outils visuels est importante pour l’expérience utilisateur.

Exemples de catalogues

Les exemples de catalogues de bibliothèque particulièrement intéressants sont nombreux maintenant, en tout cas au niveau du monde entier. Nous avons particulièrement remarqué :

Le catalogue de l’université de Chicago, réalisé avec le logiciel AquaBrowser (qui n’est pas open source), particulièrement intéressant pour le système graphique de suggestions (cliquer sur « show word cloud », à gauche de la fenêtre des résultats).

Le catalogue de la National Library of Ireland, réalisé avec Vu Find, logiciel open source, un des meilleurs catalogues.

On trouvera de très nombreux autres exemples dans le livre cité en début de ce texte, en particulier dans l’article Next-generation discovery : an overview of the European scene / Marshal Breeding. pp. 37-64.

On peut également consulter l’adresse communitywalk où la France est peu représentée (voir la carte).


  1. Library Quarterly 34 (December. 1963): p. 113
  2. Online Computer Library Center
  3. Wikipedia Recherche à facettes