revues@enssib.fr
 
Usages

 

  Annaïg Mahé
Doctorante en sciences de l'information


Les méthodes quantitatives

Intérêts et limites
Traitement des données brutes
Définition des données à analyser
Fourniture et format des données
Références

Définition des données à analyser

A partir de ce premier traitement des données brutes, il est nécessaire de définir le type d'éléments que l'on cherche à analyser. Trois types de mesures sont à prendre en compte et donnent des informations sur l'activité et l'identité des utilisateurs : les "hits" (chaque action réalisée sur le site), les sessions, les téléchargements. Selon les éditeurs, les données fournies sur ces éléments diffèrent et sont plus ou moins précises, ce qui complique l'analyse ultérieure.

Les données minimum fournies donnent des indications sur le nombre total, et par titre, de pages visualisées (tables des matières, résumés, et articles en texte intégral, type de format), ces données pouvant se décliner par année et par mois, et éventuellement par volume et par numéro pour chaque titre, ainsi que par groupe d'adresses IP.

La liste ci-dessous présente un certain nombre des éléments qui peuvent faire l'objet d'une analyse quantitative :


Contenu, éléments utilisés

• nombre total d'actions ("hits" ou clics) réalisées sur le site ;
• nombre total de pages visualisées par type de page (page de titre de périodiques, table des matières, résumé, article en texte intégral, review, letter, page de recherche) ;
• type de format des pages en texte intégral (PDF, HTML) ;
• nombre d'unités en texte intégral visualisées, téléchargées ou fournies d'une autre manière (impression ; envoi par messagerie à partir du site, les envois par messagerie réalisés à partir de fichiers téléchargés ne pouvant être comptabilisés) ;
• éventuellement : nombre de requêtes refusées (permet de connaître le nombre de demandes de connexion pour des documents dont l'accès n'est pas permis) ; nombre maximum d'usagers simultanés et autres éléments pertinents pour le modèle de prix appliqué

Pour l'analyse de l'usage par titre, il faut prendre en compte le nombre de documents téléchargés en fonction du nombre total d'articles publiés pour chaque titre. Les articles fortement utilisés donnent des indications sur les thèmes d'actualité. Certains éditeurs fournissent des informations de type "top 10" des articles visualisés (et indication du format et âge de l'article en nombre de jours). Par ailleurs, comme nous l'avons déjà mentionné, les documents accédés par un cache / proxy (copies souvent demandées et stockées sur une mémoire/un serveur intermédiaires pour un accès plus rapide) ne sont pas comptés dans les statistiques : celles-ci sont donc sous-estimées pour les documents populaires. De même pour les impressions ultérieures de fichiers : il est possible de connaître le nombre de fichiers téléchargés mais une fois ces fichiers sauvegardés sur la machine de l'usager, il n'est plus possible de connaître le nombre de consultations ou d'impressions supplémentaires, ou d'envois de fichiers par messagerie en dehors des envois à partir du site de l'éditeur.


Utilisateurs

• nombre total de sessions (logins) : les éléments d'une session doivent être définis (début, fin, durée ; généralement la session s'arrête lorsqu'un temps défini de connexion est dépassé) ;
• nombre de sessions par adresses IP (ou plus généralement par tranche/classe d'adresses IP) ;
• nombre d'adresses IP uniques qui se sont connectées (si ce type d'informations a été précisé).

Ces éléments sont à décliner selon différents degrés de granularité de l'ensemble de l'institution concernée à l'usager individuel (selon le degré de confidentialité appliqué), ce qui permet éventuellement de comparer les usages en fonction des types d'usagers (étudiants, jeunes chercheurs, chercheurs confirmés, etc.). Si les données ne sont pas connues pour les adresses IP individuelles, les données par tranche/classe d'adresses permettent éventuellement de connaître le département des usagers. Au sein d'un consortium, cela permet d'obtenir des données pour l'ensemble des institutions, pour chaque institution, pour les différentes unités, etc. Il est, par contre, plus difficile d'obtenir des données pour les usagers distants ayant une adresse IP dynamique ; de même si un proxy est utilisé par l'institution.

A l'analyse, cela permet de confronter les données d'usage aux spécificités des différents sites (et par exemple de constater si les titres consultés correspondent à des titres déjà disponibles sur place sous forme papier ou au contraire à des titres non disponibles). Cela permet aussi de connaître l'origine des usages réguliers, à répétition (le projet Tulip propose aussi une mesure du degré de pénétration : nombre des usagers à répétition divisé par le nombre d'usagers potentiels du service).


Types d'utilisation

• source du document : chemin d'accès suivi, URL de la page précédente (utile pour les accès multiples) ;
• nombre de sélections de menus et accès au texte intégral (feuilletage par titres, numéro, table des matières, thèmes) ;
• nombre de recherches et éventuellement types de recherches : par titre, auteur, sujet (les modalités de recherches sont complexes à collecter)

Comparer les statistiques des résumés et des tables des matières avec celles des téléchargements donne des indications sur la façon dont la collection est utilisée.


Période d'utilisation

• les mesures d'activités (hits, sessions, téléchargements) sont résumées en heure, jour, semaine, mois et année

Un certain nombre d'études ont ainsi pu constater la fréquence des usages en dehors des horaires d'ouverture de la bibliothèque.

Mise à jour : lundi 4 février 2002
Droits d'auteur réservés Annaïg Mahé - février 2002

 

 
édition
économique
marketing
juridique
usages
  évolution
facteurs d'intégration
méthodes quantitatives
méthodes qualitatives
technique
services
étude de cas
débats

Accueil

   
   

Arborescence du site Crédits/contacts
Site optimisé
en 800X600
pour Netscape 4
et IE4

 

 

Toute reproduction à des fins autres que strictement personnelles et notamment toute reproduction destinée à une publication électronique, papier, ou audio, destinée à des tiers, est strictement prohibée et constitutive du délit de contrefaçon.