Différences entre stats de GA et de mon hébergeur...

WRInaute accro
Bonjour

Mon site ( voir profil ), est maintenant hébergé sur son nouvel hébergeur PlanetHoster, en mutualisé "Plan Performance", depuis mardi dernier.

Je dispose, d'une adresse ip dédiée Française depuis mercredi dernier. Mon site fonctionne parfaitement bien, et les redirections 301 de son ancien ndd ortolojf-courses.com vers son nouveau ndd pronostics-courses.fr , sont de nouveau en place depuis quelques jours.

Le trafic mesuré par Gogle Analytics, n'a que très peu bougé durant la phase de propagation des DNS.

Le trafic de mon site,mesuré par Awstats de mon hébergeur, a commencé à se stabiliser, vendredi dernier.

Cependant, pour vendredi et samedi dernier, je constate de fortes disparités,entre le nombre de visites mesuré par Awstats de mon hébergeur, et puis celui mesuré par Google Analytics.

| Google Analytic | Awstats
------------------------------------------------------
Vendredi | 691 visiites | 1460 visites
------------------------------------------------------
Samedi | 689 visites | 1330 visites
------------------------------------------------------


Awstats, d'après ce qu'il indique, n'inclut pas les visites des bots de moteurs de recherche, dans ses stats.

Pensez-vous, que cette différence, puisse être due, aux visiteurs ayant désactivé Javascript ?

Celà donnerait, un pourcentage de plus de 50% avec Javascript désactivé ?

C'est indiqué sur Awstats, que ses stats, prennent en compte les visites jusqu'à 23h du soir. Sous-entendu depuis 23h de la veille je suppose.

Comment expliquer ces différences de nombres de visites ?

Les stats de Awstats, sont faites d'après les logs du serveur ?

Le ssats de GA, sont faits d'après des appels en Javascript, aux serveurs de Google.

Qui a raison ? Awstats ou Google Analytics ?

Ces mesures de GA, correspondent peu ou prou, à celles que j'obtenais récemment, avant la migration de mon site.

Merci beaucoup de vos réponses.

Très amicalement.

Jean François Ortolo
 
WRInaute accro
Madrileño a dit:
Avez-vous vérifié s'il ne comptabilisait pas les moteurs ?


Bonjour Madrileno ;)

Merci beaucoup pour ta réponse.

Les adresses ip de connexion, ne sont pas données avec leurs hosts par Awstats.

Awstats, indique bien les visites des bots, et ne semble pas les confondre avec des visites de visiteurs habituels.

En effet, les visites des bots, sont indiquées dans la catégorie : "Dernières visites des Spiders".

Google a déjà visité mon site sur son nouvel hébergement, sur plus de 7000 pages. ;)

Et puis, comme je l'ai dit, Awstats indique sur son interface, que les visites "non vu" ( = des bots comme c'est indiqué ), ne figurent pas dans ses relevés de stats de visites.

Il ne semble pas, que Awstats puisse prendre une visite d'un bot, pour une visite d'un visiteur normal, vu les critères larges qu'il indique dans cette catégorie "Dernières visites des Spiders".

Le mystère reste entier.

Je penche, pour des problèmes d'accessibilité de serveurs de GA, donc des visites non répertoriées.

Cependant, je reconnais que je touche là, au caractère sacro-saint de la supériorité manifeste, des technologies de Google.

Mais... S'il y avait sur Terre, plus de sites que Google ne pourrait en mesurer de manière parfaitement fiable, les fréquentations ?

Merci beaucoup de vos réponses.

Bien amicalement.

Jean François Ortolo
 
Membre Honoré
Après il y a déjà beaucoup de sujets concernant les différences de ce type, vous pouvez utiliser la fonction rechercher avec les mots-clés : AwStats et Google Analytics. Qui fournissent différentes solutions et explications plus ou moins intéressantes.
 
WRInaute accro
Awstats est un analyseur de logs, pas un outils de statistiques fiables. Du coup, difficile d'être sur de la qualité des données avancées. Et quand on dit que l'outil ne sait pas faire la différence entre robots et visiteurs, il ne faut pas non plus oublier tout ce qui est cUrl et autres robots qui ne sont pour autant pas des moteurs de recherche (voire des moteurs de recherches connus), et se retrouvent du coup facilement agrégés en tant que visiteur lambda.
 
WRInaute accro
Les analyseurs de logs se basent souvent sur une durée pour déterminer une visite moralité si tu reste sur une page 30 mn et que tu fait F5 depuis la même IP ils comptent deux visiteurs.
Perso j'ai un système de stat interne au CMS et GA est beaucoup plus proche de la réalité que les analyseurs de logs.
 
WRInaute accro
UsagiYojimbo a dit:
Awstats est un analyseur de logs, pas un outils de statistiques fiables. Du coup, difficile d'être sur de la qualité des données avancées. Et quand on dit que l'outil ne sait pas faire la différence entre robots et visiteurs, il ne faut pas non plus oublier tout ce qui est cUrl et autres robots qui ne sont pour autant pas des moteurs de recherche (voire des moteurs de recherches connus), et se retrouvent du coup facilement agrégés en tant que visiteur lambda.


Bonsoir UsagiYojimbo ;)

Sous Webalizer, j'obtiens sensiblement le même nombre de visites, mais pas les mêmes nombres de pages que sous Awstats :

Logiciel | Vendredi | Samedi
----------------------------------------------------------------------------------------------------------------------
Awtats | 1460 visites, 17688 pages | 1330 visites, 18390 pages
----------------------------------------------------------------------------------------------------------------------
Webalizer | 1339 visites , 6547 pages | 1280 visites, 6953 pages
----------------------------------------------------------------------------------------------------------------------

Awstats, prend en compte les visites jusqu'à 23h.

Pour Webalizer, je ne sais pas.

Awstats, dit qu'il ne prend pas en compte les bots dans ses mesures.

Qu'il y ait autant d'aspirations par curl ( par exemple, que je connais en PHP ), et plus du double de visites pour ces deux logiciels que pour GA, celà laisse rêveur...

Awstats, indique bien dans sa catégorie : "Dernières visites des Spiders", les visites des bots qu'il détecte.

Les critères de détection des bots, ont l'air de se faire par l'user-agent, qui me semble ne pouvoir être mis en échec, que par les aspirations non valides autres que les bots.

A part évidement, les adresses ip de bots, qui ne sont pas résolues.

Enfin, j'ai limité l'accès aux courses anciennes déjà courues, aux dix derniers jours ( même pour les bots, pour ne pas faire de cloaking ).

Donc, les personnes qui veulent aspirer rma base de données, ne peuvent plus le faire. Ils se contentent des données récentes.

Ceci en encourant le risque de se voir baklistés par leurs adresses ip, ce qui est très facile avec mon hébergeur...

Avis aux amateurs, je loggue toutes les visites aux courses anciennes.

De temps en temps, je visite la table MySQL de ces logs, puis je filtre les accès aux malheureux imprudents... ;)

Le problème reste entier.

Mystère...

Bien amicalement.

Jean François Ortolo
 
WRInaute accro
Rebonjour

J'insiste un peu, par rapport à la fiabilité de Awstats, supposée inférieure à celle de GA.

Awstatstn détecte les bots, d'après l'user-agent.

Mais il est capable de dire, si une aspiration a été faite avec curl, d'après l'user-agent, bien que je reconnaisse, que justement avec les fonctions php curl_*() de curl, il n'y a rien de plus facile, que de spécifier n'importe quel user-agent, tout en utilisant curl pour aspirer à partir d'un site par exemple.

Cependant, j'ai fait quelque chose ce matin.

J'ai fait un copier-coller, de toute les adresses ip qui se sont connectées à mon site depuis trois jours ( des visiteurs théoriquement ).

Je disposais donc, d'un fichier texte ascii, avec une colonne d 'adresses ip version ip4, des ips de provenance.de toutes les visites de mon site depuis vendredi dernier inclus.

J'ai fait un script en Bourne Shell, lisant ce fichier texte ligne par ligne, faisant un 'dig -x' de chacune de ces adresses ip, et affichant seulement les lignes contenant les reverses de ces adresses ip ( contenant le token : PTR ).

Sur ces résultats de reverses, il y en avait pas mal, qui n'avaient pas de reverses ( donc des lignes PTR par adresse ip, n'ayant pas de reverse ).

J'ai donc sélectionné, avec le programme awk, parmi toutes les lignes, les reverses réels, et les ai mis dans un fichier fixed_hosts.txt

Ce fichier fixed_hosts.txt, contenait donc, tous les hostnames correspondant aux visites, pouvant ainsi être vérifiés comme ceux d'un bot ou non.

J'avoue,,que j'ai obtenu environ la moitié des adresses ip, sans reverse du tout.

Cependant, en ce qui concerne la fiabilité de Awstats, à déceler les bots réels ( pas les aspirateurs humains ), j'insiste sur le fait, que les règles que suit Awstats pour considérer qu'une visite provient d'un bot ( et donc ne pas l'inclure dans les stats ), donc ces règles qui utilisent l'user-agent, sont très larges.

Tout user-agent réduit à la chaîne vide, sera un bot.

Seront considérés comme bots, les user-agents contenant les tokens suivants à l'intérieur des user-agents ( d'après ce que j'ai vu sur Awtats ) :

bot
bots
spider
crawl
seek
etc...

Tout terme générique ne faisant que suggérer un bot, contenu dans l'user-agent, sera pris pour un bot, et ne figurera pas dans les stats.

Quant aux bots détectés comme tels, et figurant dans la catégorie "Dernières visites des Spiders", leur liste est très complète, et c'est évident,,qu'ils sont considérés comme "non vu", c'est-à-dire qu'ils ne figurent pas dans les stats de visites.

Un message en ce sens, figure en haut des stats de Awstats.

Il ne semble pas,qu'un bot réel d'un moteur de recherche réel, ira fausser son user-agent, pour sembler être une visite normale.

Tout au plus, un certain nombre de bots, n'auront pas de reverse.

Mais... C'est aussi le cas de certaines visites réelles, et aussi de certaines aspirations de site.

Sur mon site, il y a désormais, peu de pages intéressantes à aspirer pour les aspirateurs de site de turf.

Les seuls résultats visibles, sont sur les dix derniers jours. Plus tôt, les données ne s'affichent pas, et sont remplacées, par un message recommandant de naviguer sur le site, et indiquant des liens vers d'autre parties du site.

Alors les aspirateurs,ils vont pas faire long feu... ;).

Après, on pourra dire : "Oui, mais Awstats fait une mauvaise interprétation des logs , et surévalue le nombre des visites, en établissant un délai trop court pour une visite".

Ceci serait effectivement possible, si le ratio du nombre de pages vues / nombres de visites, était différent de celui de Google Analytics.

Or, ce n'est pas le cas. Ces deux ratios ( Awstats d'un côté, GA de l'autre ), sont identiques.

ce ratio, dans les deux cas, est de 10/1 ( 10 pages ou un peu plus, par visite. )

Maintenant y a-t-il des scripts, comptabilisés par Awstats, et pas par GA ?

Je n'en vois qu'un : C'est le script session_js.php , qui est lancé en Javascript ( mode Ajax ), à chaque chargement de page.

Mais... l'adresse ip source de ce lancement, est bien la même que celle du chargement de page l'ayant précédé.

Donc... Rien n'indique dans les types de scripts lancés réellement, ( réellement enregistrés dans les logs ), que Awstats puisse se tromper quant aux nombres de visites.

Ceci, en supposant un délai maximal admissible par Awstats, supérieur à celui maximal entre deux chargements de pages, de type raisonnable donc, par rapport à un site habituel.

Dans le cas de mon site, celà correspond à peu près, au maximum maximorum, à une ou deux minutes, le temps qu'un visiteur évalue mes stats, pour faire ses pronostics. Ce délai, doit se produire très rarement, si l'on en juge par la durée moyenne de nombre de pages chargées par mes visiteurs, qui est de 10 pages/visite environ.

Je ne crois pas,que Awstats, puisse considérer comme deux visites différentes, deux accès http successifs provenant de la même ip, dans un délai de deux minutes.

Ce serait une faute lourde programmation de ce logiciel de stats , que de procéder de cette manière.

Après, en ce qui concerne Google Anaytics, il doit supporter sur ses ( nombreux ) serveurs, une très très forte charge de tous les sites web mondiaux, ayant installé Google Analytics.

Celà, en plus des problèmes réseau inhérents à Internet, me paraît largement suffisant, pour expliquer que des visites ne soient pas comptabilisées par GA.

D'un côté : les logs du serveur. C'est du solide,et c'est mémorisé à la source. Les données sont sûres. Elles peuvent effectivement être mal interprétées, mais encore faudrait-il le prouver.

De l'autre côté : Transmission en direct des données par le réseau Internet, vers des serveurs qui reçoivent ( en load balancing probablement ), des requêtes http en très très grandes quantité et débit.

C'est sûr, que pour évaluer le trafic d'un site à distance, la solution Google Analytics, est ce qui se fait de mieux.

Mais... Il y a des maillons faibles, vous les connaissez : Le réseau d'abord, la très grande rapidité ( et simultanéité souvent très certainement ) des requêtes http vers les serveurs ensuite.

Ces maillons faibles, à comparer avec la base très très sûre, que constituent des logs serveurs, qui sont enregistrés, et qu'il suffit d'exploiter, en temps différé.

La fiabilité de Awstats, peut être comparée, quant à la solidité des sources des logs, à la fiabilité d'une comptabilité bancaire.

Celà me semble avoir la même logique de programmation séquentielle.

Que dire de plus, qui puisse à contrario, donner des indications sûres, sur la supériorité de GA sur Awstats ?

Merci beaucoup de vos réponses.

Amicalement.

Jean François Ortolo
 
Discussions similaires
Haut