revues@enssib.fr
 
Expertise technique et organisationnelle

 

  Guylaine Beaudry,
Gérard Boismenu
L'archivage

L'obsolescence technologique
Les formats d'archivage et de conservation
Les supports d'archivage et de preservation
Les stratégies employées dans les divers projets
Garantir l'intégrité et l'authenticité des textes
La responsabilité de la conservation et de l'archivage

Les formats d'archivage et de conservation

Depuis les cinq dernières années, plusieurs projets cherchent à définir les meilleures pratiques pour l'archivage et la conservation des publications électroniques. Nous avons porté une attention particulière aux projets impliquant des publications scientifiques, à la question des formats et des supports, ainsi qu'aux stratégies employées pour l'archivage et la conservation.

Puisque les documents numériques sont stockés selon certains formats, il est nécessaire de s'interroger sur les critères de choix d'un format d'encodage permettant la représentation de l'information et la conservation à long terme.

Pour assurer la préservation de l'information, le format choisi doit être "lisible" par une application, et ce, aussi longtemps qu'il est souhaité. C'est ici que les difficultés se présentent.

Tout d'abord, il est important de mentionner que les conversions d'un format à l'autre ou encore d'une version à l'autre d'un même format ne sont pas une solution à ce problème. Prenons, par exemple, un format de traitement de texte comme Word. Un document stocké dans la version "97" de Word pourra être conservé pendant un certain temps, et nous pouvons supposer qu'il existera des applications qui pourront lire des documents Word pour encore un grand nombre d'années. Toutefois, ces logiciels auront évolué et même si en apparence le logiciel lira notre document, en fait il effectuera une conversion dans son format "natif". Rien ne garantit que cette conversion fonctionnera correctement à tout coup. Les pertes d'information ou changements dans la présentation sont des situations courantes lors de telles conversions.

L'utilisation d'un format d'encodage de l'information à la fois simple et universel permet de pérenniser les documents numériques. Le SGML et, depuis 1998, le XML, par leur statut de norme et leur utilisation répandue, sont reconnus comme des formats stables d'encodage de l'information. Un des arguments en faveur du XML, outre ses caractéristiques techniques et les possibilités d'exploitation intéressantes, est qu'il ne soit pas rattaché à un logiciel en particulier. Sa nature "non-propriétaire" en fait un format libre et ouvert, offrant une certaine garantie pour la préservation de l'information.

Le format XML peut être représenté à l'aide du jeu de caractères ASCII1. Concrètement, le fichier produit sera un pur fichier ASCII, soit le type de fichiers le plus universel que l'on trouve dans le monde informatique. Il devrait exister, pour encore de nombreuses années, des plates-formes informatiques et des applications qui permettront de "voir" un fichier ASCII. Cette facilité de lecture par l'humain est impossible avec des formats binaires tels que Word, qui sont destinés à être compris que par une machine. Même si on perdait toute possibilité d'utiliser des applications pouvant faire un traitement intéressant de documents XML, un seul lecteur de documents ASCII permettra de consulter le document et de le comprendre.

Les documents structurés stockés en XML ont donc comme grande qualité d'être très bien adaptés pour la conservation à long terme, ce qui est fort intéressant dans le monde de l'édition scientifique. Des techniques, bien connues et maîtrisées, de rafraîchissement2 et de migration3 pourront être employées sans difficulté avec les documents en format structurés (XML, SGML), puisqu'ils ne contiennent que du texte "pur". Pour assurer l'intégrité des documents qui contiennent des objets numériques (images, sons, modèles, formules, hyperliens, etc.), la même attention doit être portée à l'information "non-textuelle" qui constitue souvent une partie importante des articles de revues savantes. Ces différents objets liés peuvent être de formats propriétaires, incompatibles ou simplement de différentes versions.

Le tableau suivant présente les formats utilisés par huit programmes pour la préservation des documents électroniques.

Projet
Formats
Pandora
(Preserving and Accessing Networked Documentary Resources of Australia http://pandora.nla.gov.au/pandora/">http://pandora.nla.gov.au/pandora/)
PDF
SGML
HTML
HighWire
(États-Unis ;http://highwire.stanford.edu/)
SGML
PDF
Muse
(États-Unis ; http://muse.jhu.edu/)
HTML
PDF
Allen Press
(États-Unis ; http://www.allenpress.com/)
SGML
Institute of Electrical and Electronic Engineers
(États-Unis ; http://www.ieee.org/)
SGML
PDF
American Astronomical Society
(États-Unis ; http://www.ieee.org/)
SGML
American Institute of Physics
(États-Unis ; http://www.aip.org/)
PDF
SGML
Danemark, projet de dépôt légal des publications électroniqueshttp://www.pligtaflevering.dk/, http://www.konbib.nl/infolev/liber/articles/dupont11.htm) ASCII Text, format d'image
(TIFF)

Les formats les plus utilisés sont les HTML, SGML et PDF. Le format XML est encore peu utilisé pour le moment, mais il doit dorénavant être considéré. Le PDF est un format propriétaire, largement utilisé et accepté par le milieu de l'édition. Son accessibilité à long terme demeure toutefois source d'inquiétude pour les archives nationales et les bibliothèques (Hodge G. et Carroll B.C., 1999, 60). La garantie d'accès à long terme aux fichiers PDF est probable, mais ne peut être affirmée d'une façon aussi certaine. On constate que les pratiques quant au choix du format d'encodage pour la préservation des fichiers textes vont clairement dans le sens de l'utilisation d'un format de balisage structuré normalisé, tel le XML et le SGML.

Mise à jour : vendredi 23 février 2001
Droits d'auteur réservés Guylaine Beaudry / Gérard Boismenu - février 2001

 

1 Le jeu de caractères du XML est en fait UNICODE, apparenté à la norme ISO 10646. Toutefois, la table UNICODE est organisée de façon à ce que les 256 premières positions sont occupées par le code ASCII ISO Latin-1.

2 Rafraîchissement : action de copier de l'information numérique d'un médium de stockage à long terme vers un autre (source : projet CEDARS - traduction libre)

3 Migration : la migration est un élément d'une stratégie globale de conservation
qui consiste à mettre en oeuvre une série de tâches visant à convertir de façon périodique des objets numériques d'une configuration (matérielle/ logicielle) vers
une autre ou d'une génération de technologie informatique vers une nouvelle génération. Le but est de préserver l'intégrité de l'objet numérique et de conserver la capacité de le récupérer, l'afficher et l'utiliser en dépit des technologies en changement constant.
(source : projet CEDARS - traduction libre) http://www.leeds.ac.uk/cedars/documents/PSW01.htm

 

 
édition
économique
marketing
juridique
technique
  papier / électronique
infrastructure
version électronique
diffusion
archivage
glossaire
bibliographie
usages
services
étude de cas
débats

Accueil

   
   

Arborescence du site Crédits/contacts
Site optimisé
en 800X600
pour Netscape 4
et IE4

 

 

Toute reproduction à des fins autres que strictement personnelles et notamment toute reproduction destinée à une publication électronique, papier, ou audio, destinée à des tiers, est strictement prohibée et constitutive du délit de contrefaçon.