revues@enssib.fr
 
Usages

 

  Annaïg Mahé
Doctorante en sciences de l'information


Les méthodes quantitatives

Intérêts et limites
Traitement des données brutes
Définition des données à analyser
Fourniture et format des données
Références

Traitement des données brutes

Le matériau de base pour la production de rapports d'usage des produits en ligne est le fichier log du serveur web. Il existe des logiciels qui permettent d'analyser les données contenues dans ce type de fichier.

Le fichier log contient les informations suivantes :

Qui : qui a demandé une URL (adresse IP de la machine de l'utilisateur, le nom d'utilisateur (quand il existe un login personnel) et le cookie)
Quoi : quelle URL a été demandée (URL de la page demandée)
Quand : à quel moment l'URL a été demandée (tampon de la date et de l'heure, et zone de temps correspondant à l'utilisateur en fonction de sa localisation)
Comment : comment la demande a été faite (type et version du navigateur utilisé, type du système d'exploitation)
Informations supplémentaires (le développement des navigateurs permettra par la suite à d'autres type d'éléments d'être enregistrés dans le fichier log) :
- code de retour (indique le statut de la demande : accomplie, manquée, refusée, etc.)
- nombre total de bits transférés par demande
- référent ou URL précédente (d'où la demande ou le clic a été fait)

Cependant, les données enregistrées dans ce type de fichiers ne peuvent être traitées telles qu'elles : près de 50% des informations du fichier sont à exclure et il est nécessaire d'effectuer un premier traitement consistant à éliminer les données multiples. Pour cela, on applique des filtres permettant d'exclure toutes les autres données contenues dans le fichier log et qui ne concernent pas les demandes des utilisateurs :

• un filtre de base permet d'abord d'exclure les enregistrements concernant les images ou objets contenus dans la page demandée, les enregistrements contenant un code autre que "200" (demande accomplie), "301" (demande redirigée) ou "304" (utilisation d'une copie cache), et de ne conserver ainsi que les demandes intentionnelles et accomplies.

• d'autres filtres permettent :
- d'exclure les enregistrements multiples générés lors de la consultation de fichiers PDF (avec Microsoft Internet Explorer versions 4.x et 5.x). Ces enregistrements multiples sont aussi possibles avec d'autres navigateurs et il est difficile de suivre les changements du marché ;
- d'exclure les demandes accomplies mais non-intentionnelles des usagers: double-clic au lieu d'un simple clic, bouton "retour" du navigateur, bouton de rechargement de la page.

Certains sites interdisent l'accès aux moteurs de recherche et aspirateurs de sites, mais lorsque ce n'est pas le cas les statistiques peuvent être artificiellement gonflées. Par ailleurs, la multiplicité des moyens d'accès à un titre rend difficile une analyse globale : ainsi, les accès obtenus par l'intermédiaire d'une copie cache ne sont pas comptabilisés dans le fichier log et cela peut donc fausser l'interprétation de l'usage des documents souvent consultés.

Les informations sur les demandes qui échouent peuvent être conservées à part. Cela permet notamment d'analyser les tentatives d'accès à des titres non-souscrits.

Mise à jour : lundi 4 février 2002
Droits d'auteur réservés Annaïg Mahé - février 2002

 

 
édition
économique
marketing
juridique
usages
  évolution
facteurs d'intégration
méthodes quantitatives
méthodes qualitatives
technique
services
étude de cas
débats

Accueil

   
   

Arborescence du site Crédits/contacts
Site optimisé
en 800X600
pour Netscape 4
et IE4

 

 

Toute reproduction à des fins autres que strictement personnelles et notamment toute reproduction destinée à une publication électronique, papier, ou audio, destinée à des tiers, est strictement prohibée et constitutive du délit de contrefaçon.