revues@enssib.fr
 
Expertise technique et organisationnelle

 

  Guylaine Beaudry,
Gérard Boismenu
La production d'une version électronique

Formats de production, de diffusion, et d'archivage
Les formats structurés (SGML et XML)
Le PDF et le Postscript
Les formats images
Chaînes de traitement : différentes options
Chaînes de production : modèles et enjeux
La numérisation retrospective
La production des formats de diffusion de l'information
Les métadonnées

Les métadonnées

On ne peut prétendre diffuser une collection d'articles simplement en la rendant accessible dans le Web. C'est l'équivalent d'ouvrir les portes d'une immense bibliothèque sans fournir de catalogue : on se doute bien qu'elle contient des informations intéressantes mais aurions-nous le temps de les chercher dans ces conditions ? Le Web ressemble actuellement à cette "bibliothèque". Les métadonnées sont un des outils pour assurer la diffusion efficace et optimale des articles. L'édition savante électronique transforme le processus traditionnel, notamment pour le repérage. L'exploitation des métadonnées appliquées à des articles de revues en version électronique permet de tirer de grands avantages dans le repérage et la mise en réseau de sources documentaires diverses.

Les métadonnées : raison d'être et usages

L'analogie classique pour décrire les métadonnées, c'est la fiche de carton d'un catalogue de bibliothèque. Cette petite fiche permettait de faire un choix sans pour autant voir le document décrit. Les informations bibliographiques, les résumés, les termes d'indexation, les abstracts, tout ce qui peut être un substitut au document original et qui libère les usagers potentiels de la nécessité de connaître à l'avance l'existence et les caractéristiques de ce document sont des métadonnnées.

Dans l'univers électronique, les métadonnées sont des informations à propos d'objets numériques qui peuvent être soit des articles, soit d'autres objets numériques insérés dans ces articles (par exemple des fichiers image ou son). Les métadonnées décrivent les attributs et le contenu de ces objets. Elles sont utiles au repérage mais également à la gestion, à la description, à l'accès et à la conservation de l'information.

L'utilisation des métadonnées est nécessaire par une simple raison de logique mathématique. En juin 1993, on comptait 130 sites Web (Gray M.), en novembre 2000, la société Netcraft en comptait 23,8 millions (Netcraft). Les chiffres sont encore plus impressionnants si on considère les documents électroniques présents sur ces sites : quelque 800 millions de documents publiquement accessibles par les robots de recherche dans le Web étaient recensés en 1999 (Lawrence Steve C. et Giles Lee, 1999). Michael Dahn (2000), sans contester l'enquête de Lawrence et Giles, en vient à la conclusion qu'en novembre 1999 le Web publiquement indexable comprend 1,16 milliard de documents, mais que le Web publiquement accessible se chiffre plutôt entre 1,45 et 2,33 milliards de documents (voir plus loin le commentaire concernant Web accessible/Web indexable). De leur côté, les producteurs du moteur de recherche Inktomi ont atteint leur milliardième document le 18 janvier 2000 (Inktomi). Plusieurs motifs plaident pour le recours à des métadonnées dans cet univers à la fois riche et pléthorique.

Tout d'abord, l'accessibilité et l'utilisation accrues des documents électroniques, grâce notamment aux facilités de recherche, doivent être supportées de façon conséquente par les outils offerts aux utilisateurs, d'où, au premier chef, les métadonnées. Elles améliorent aussi grandement la recherche d'information dans de multiples collections et permettent, par exemple, l'interopérabilité entre différents portails. Il s'agit, de plus, d'un outil précieux pour diversifier les points d'accès à l'information, la présentation des résultats et les possibilités de manipulation de l'information Les métadonnées sont également des outils de gestion de la protection des droits et des restrictions de consultation.

On estime que seulement 6 % du Web est à caractère scientifique ou éducatif ; la plus grande masse du contenu (83 %) étant à caractère commercial (Lawrence S.C. et Lee G., 1999). Dans ces conditions, le simple fait de rendre un texte savant disponible dans le Web équivaut aujourd'hui à verser un verre d'eau de plus dans l'océan.

De là, deux tendances lourdes se dégagent pour mettre un peu d'ordre dans ce chaos : la création de portails spécialisés et l'utilisation de métadonnées. On assiste de plus en plus à une spécialisation du Web. Bientôt, on retrouvera des Webs à l'intérieur du Web. Une de ces manifestations est la création de portails : portails de divertissement, portails de services financiers, portails de revues savantes, etc. Lorsque les portails scientifiques et l'infrastructure de navigation et d'interopérabilité entre ces portails seront implantés et consolidés, les chercheurs n'auront plus à naviguer sur tout l'océan Web ; on s'orientera vers la qualité plutôt que vers la quantité. À cet égard, les métadonnées sont le moyen pour assurer cette mise en ordre du Web.

Les métadonnées : les créer, les stocker

Dans un environnement de documents structurés, un certain nombre de métadonnées sont déjà présentes grâce à la structure des documents. Par exemple, le titre d'un article est déjà identifié comme tel par les balises XML. Il est possible d'extraire ces éléments d'information du contenu du texte pour générer des schémas normalisés de métadonnées, comme le Dublin Core. Tous les éléments de description bibliographique de l'article, de même que différents types d'indexation matière, devraient se retrouver dans les métadonnées.

Le principe à suivre est d'associer les métadonnées le plus tôt possible, car elles peuvent être utiles dans le processus de production. Cela dit, en raison de la rigueur requise pour cette opération, il est souhaitable de confier aux éditeurs de revues savantes plutôt qu'aux auteurs la création des métadonnées bibliographiques dans le document "Word++", et ce, au tout début du processus de mise en forme du document reçu des auteurs.

Il est facile d'associer des métadonnées, et de façon très structurée, aux documents XML. Toute métadonnée propre à l'article devrait s'y retrouver en premier lieu, par insertion, quitte à ce qu'elle soit reprise ailleurs dans le système, par souci d'efficacité.

Pour les articles rétrospectifs, les métadonnées devraient être associées au moment de la numérisation, à l'aide d'un traitement manuel ou encore par récupération semi-automatique des informations depuis des bases de données bibliographiques.

Quelques modèles de métadonnées

Les éditeurs utilisent, de plus en plus, un standard d'identification unique des articles, le DOI (Digital Object Identifier http://www.doi.org). Cet identificateur permet, entre autres, de donner des adresses permanentes aux articles, ce qui facilite leur repérage et leur gestion. L'ajout d'un identificateur unique aux articles ouvre la porte à de nombreuses applications, y compris une navigation facilitée dans les références bibliographiques. D'autres outils proposent des solutions équivalentes, entre autres, le PURL http://www.purl.org et SFX (Van de Sompel, 1999)1.

En apportant une réponse au problème des liens URL rompus (erreur 404), ces services implantent électroniquement, et de façon pérenne, cette caractéristique fondamentale de l'édition savante : les citations. Le service CrossRef http://www.crossref.org/faqs.htm a pour objectif de lier les références bibliographiques aux contenus des articles diffusés en ligne. On estime qu'à la fin de l'an 2000, trois millions d'articles provenant de milliers de périodiques auront été liés au moyen de CrossRef et que la croissance annuelle sera de 500 000 articles. Notons que les liens ne seront pas seulement entre des revues savantes mais pourront pointer vers des articles d'encyclopédie, des actes de colloque, des manuels scolaires, etc., ce qui permettra un enrichissement important de la lecture. CrossRef s'appuie fortement sur les DOI.

Dublin Core (DC ; Haigh S., 1999) est le standard de métadonnées le plus répandu et le plus avancé pour la description des ressources Internet. Créé en 1995 à Dublin en Ohio (siège de Online Computer Library Center), le développement du Dublin Core est assuré par le Dublin Core Directorate, supervisé par le OCLC Office of Research and Special Projects (Morgan C., 1999, p. 192 ; Hudgins J. et al., 1999, p. 14).

Le Dublin Core comprend 15 éléments de base pour décrire les ressources électroniques. Il est conçu autour de 5 principes fondamentaux, à savoir :

  • Tous les éléments sont optionnels.
  • Tous les éléments sont répétables.
  • DC est extensible. DC est un plus petit dénominateur commun (DC Simple) mais permet aussi, si on le désire, d'avoir une description plus riche, au moyen de sous-éléments (DC Qualified)
  • DC est multidisciplinaire.
  • DC est international (plus de 20 langues actuellement).

Ce modèle de métadonnées est déjà utilisé dans le milieu de l'édition savante. L'éditeur John Wiley & Sons, qui publie chaque année 35 000 articles dans plus de 400 revues, en a fait son standard. Ces revues sont codées en SGML. L'en-tête (header material) comprend des informations sur la revue, le volume et le numéro, mais on y retrouve aussi le titre de l'article, l'auteur et son affiliation, le résumé, des mots-clés, la date de réception de l'article, etc. (Morgan C., 1999, 194).

Une autre norme importante augmente les possibilités d'exploitation des métadonnées. RDF (Resource Description Framework) est une norme pour faciliter le traitement des métadonnées. Il fournit l'intéropérabilité entre les applications qui échangent de l'information non compréhensible par les machines du Web http://www.la-grange.net/w3c/REC-rdf-syntax. En plus d'être utilisé pour la découverte de ressources, le catalogage, l'évaluation du contenu, la gestion des droits d'auteur, il sera également possible avec RDF d'insérer des métadonnées qui informeront les lecteurs des pratiques en matière de protection des renseignements personnels grâce au projet "Platform for Privacy Preferences" (P3P http://www.w3.org/P3P/Overview.html). Par exemple, dans une transaction électronique, il sera possible d'informer les clients que leurs informations nominatives ne seront pas transmises à des tiers. Ces échanges d'information se feront automatiquement et de façon transparente entre le navigateur du client et le serveur Web. Cette norme est essentielle au développement de la confiance en matière de commerce électronique ("Web of trust").

Mise à jour : vendredi 23 février 2001
Droits d'auteur réservés Guylaine Beaudry / Gérard Boismenu - février 2001

 

1 Voir aussi à ce sujet Caplan et Arms, (1999) et Lupovici (1998)

 

 
édition
économique
marketing
juridique
technique
  papier / électronique
infrastructure
version électronique
diffusion
archivage
glossaire
bibliographie
usages
services
étude de cas
débats

Accueil

   
   

Arborescence du site Crédits/contacts
Site optimisé
en 800X600
pour Netscape 4
et IE4

 

 

Toute reproduction à des fins autres que strictement personnelles et notamment toute reproduction destinée à une publication électronique, papier, ou audio, destinée à des tiers, est strictement prohibée et constitutive du délit de contrefaçon.