revues@enssib.fr
 
Expertise technique et organisationnelle

 

  Guylaine Beaudry,
Gérard Boismenu
La production d'une version électronique

Formats de production, de diffusion, et d'archivage
Les formats structurés (SGML et XML)
Le PDF et le Postscript
Les formats images
Chaînes de traitement : différentes options
Chaînes de production : modèles et enjeux
La numérisation retrospective
La production des formats de diffusion de l'information
Les métadonnées

Les formats structurés (SGML et XML)

Les formats structurés, en plus d'encoder le contenu d'un texte, rendent lisible par l'ordinateur la structure sémantique et hiérarchique d'un document. Chaque élément d'un texte encodé à l'aide d'un langage structuré se voit attribuer des balises qui le délimitent et l'identifient. Par exemple, un titre sera encodé comme ci : <titre>Ceci est un titre</titre>. Par ce balisage structuré, le contenu d'un document est nettement distinct des diverses représentations qu'on peut en faire. Cette particularité fait en sorte que l'apparence ou la mise en page d'un document n'est pas encodée à même le contenu, comme c'est le cas pour les formats de traitement de textes propriétaires. Une application et un fichier distincts déterminent les attributs de style, de mise en page ou d'affichage de l'information.

Les documents structurés permettent l'échange et la réutilisation de textes numériques tout en préservant le contenu, les données et la structure sémantique d'un document des différentes utilisations qu'on fera de l'information dans le présent et le futur. Chaque élément d'un document structuré peut être stocké, recherché, réutilisé, extrait pour créer un autre document ou une base de données. Les deux formats de balisage structuré les plus utilisés sont le SGML et le XML.

Le SGML (Standard Generalized Markup Language) est un langage structuré normalisé par l'ISO en 1986. Le SGML est un métalangage qui permet de décrire la structure logique d'un document. Le cœur d'un système SGML, la DTD (définition de type de document), est la "grammaire" d'un genre de texte (article, livre, dictionnaire, etc.) dans laquelle on retrouve la description des éléments, de leurs contenus et des relations entre les éléments. SGML est rapidement apparu très intéressant pour la diffusion des contenus à la fois sur supports papier et électronique. Seulement, les investissements financiers ainsi que l'expertise requise pour la mise en place et la gestion d'un système SGML ont freiné l'implantation d'une telle solution dans certains milieux.

Pourquoi ne pas se limiter au HTML ? À première vue, le HTML (HyperText Markup Language) peut sembler être une solution intéressante. Ce format est une application simple du SGML. HTML est facile à apprendre et sa diffusion dans le Web ou sur d'autres supports, tels que le cédérom, se fait assez aisément. Cependant, on rencontre rapidement les limites du HTML. Le jeu de balises limité du HTML ne permet tout simplement pas d'identifier et de représenter adéquatement les nombreux éléments souvent complexes d'une revue savante. Le HTML est encore pour un certain temps le format de diffusion le plus utilisé dans le Web mais, compte tenu de ses limites, il n'est définitivement pas adéquat pour l'édition de revues savantes.

Le XML : solution entre le SGML et le HTML ? Le XML (eXtended Markup Language) a depuis 1998 le statut de recommandation du W3C (World Wide Web Consortium http://www.w3c.org). XML est un langage de balisage structuré, basé sur le SGML, développé pour pallier les limites du HTML sans pour autant posséder les difficultés d'application du SGML. Le texte d'un article en XML est structuré de telle sorte qu'il peut être matérialisé par plusieurs médias avec un effort minimum : papier, Web, base de données, synthèse vocale, etc. Tout comme le format SGML, le XML permet de distinguer le texte et les données qu'il contient, des représentations visuelles qu'on lui donne, papier ou électronique, selon des besoins actuels et futurs.

Le XML, c'est aussi une famille de technologies. Le XLink (XML Linking Language), une proposition de recommandation du W3C http://www.w3.org/TR/2000/PR-xlink-20001220 depuis le 20 décembre 2000, est la norme qui décrit la façon d'intégrer des liens hypertextes à un fichier XML. Le XLink permet notamment de qualifier la nature des liens. Par exemple, on pourra, à partir d'une zone ou d'un mot sensible, accéder à la biographie d'un auteur, sa bibliographie, ses coordonnées ou son affiliation. Le XSL (eXtensible Stylesheet Language) est un langage qui permet de développer des feuilles de styles pour la représentation à l'écran des documents. Il est basé sur le XSLT (eXtensible Stylesheet Language Transformation), un langage de transformation qui permet de faire la conversion d'un document XML à un autre type de document XML. Dans un système XML, les schémas permettront aux utilisateurs de développer leurs propres applications XML. Finalement, le XHTML (eXtensible Hypertext Markup Language) est une reformulation du HTML 4.0 en XML, en quelque sorte une passerelle pour favoriser le passage du HTML au XML.

Mise à jour : vendredi 23 février 2001
Droits d'auteur réservés Guylaine Beaudry / Gérard Boismenu - février 2001

 

 
édition
économique
marketing
juridique
technique
  papier / électronique
infrastructure
version électronique
diffusion
archivage
glossaire
bibliographie
usages
services
étude de cas
débats

Accueil

   
   

Arborescence du site Crédits/contacts
Site optimisé
en 800X600
pour Netscape 4
et IE4

 

 

Toute reproduction à des fins autres que strictement personnelles et notamment toute reproduction destinée à une publication électronique, papier, ou audio, destinée à des tiers, est strictement prohibée et constitutive du délit de contrefaçon.