Incohérences stats de crawl et logs apache

Nouveau WRInaute
Bonjour à tous,

Je n'avais jamais vraiment prêté attention à ce détail, mais pour la plupart de nos sites il y a un décalage très important entre les statistiques de crawl données par Webmaster Tools, et ce qu'on peut voir en examinant les logs apache.

Sur notre site principal, les metrics sont bien plus élevées dans GWT :
- Nombre de pages crawlées : en moyenne GWT indique 2x à 5x plus de pages que ce que nous voyons dans nos logs (un simple grep sur "Googlebot", mais à ma connaissance tous les useragent qui "comptent" ici sont des Googlebot)
- Moyenne de téléchargement des pages, c'est là que ça pique le plus : on est à quasi x10 (!!!) par rapport à ce qu'on log. On utilise le "%D" des logs apache pour info, qui correspond plus ou moins au time to last byte, donc plutôt cohérent par rapport à ce qu'est censé afficher GWT.

Concernant le temps de chargement, on est à ~200ms de moyenne d'après nos logs, et à plus de 2s (!!) d'après google. Comme nous avons fait de gros progrès sur ce site, et que tous les autres crawlers nous affirment que nos temps de chargement sont très bons, cela nous étonne de les voir aussi élevés chez google. Surtout que cela doit désormais être super pénalisant. Sur My Ranking Metrics par exemple, nous avons 93% des pages sous les 200ms, et environ 1% au dessus de la seconde pour donner un ordre d'idée.

Je pensais que nous étions "pourris" par du crawl sur un sous-domaine qui aurait pu nous échapper, mais en creusant un peu je n'ai pas l'impression que ce soit le cas. La tendance est de toute façon identique sur d'autres domaines, qui n'ont pas de sous-domaines.

Comment expliquer un tel écart ?

Merci d'avance
 
WRInaute impliqué
Concernant le nombre de pages crawlées : tu utilises Grep avec GoogleBot, mais :
- As-tu bien exclu des logs les ressources (js, css, images, etc...)
- As-tu vérifié que les lignes contenant GoogleBot proviennent bien d'IP de Google et pas de bots qui se font passer par Google ?

Concernant les perfs... c'est étrange, en effet. Tu peux nous partager l'adresse de ton site (éventuellement en MP si tu ne veux pas la partager publiquement) ?
 
Nouveau WRInaute
- As-tu bien exclu des logs les ressources (js, css, images, etc...)

Les assets sont sur un sous-domaine. Mais, même en les incluant, je suis encore loin du compte.

Un exemple concret, pour le 20/07 :

- GWT m'indique 6082 pages crawlées
- Les logs apache pour le domaine «principal» montrent un crawl sur seulement 1444 pages
- En incluant tous nos sous-domaines (images, js, tracking, même le blog...), on n'arrive qu'à 2997 pages

Exclure les bots qui se font passer pour google, je m'y pencherai quand j'aurai plus de hits dans les logs que dans GWT :)

Le site en question est likibu.com
 
WRInaute discret
J'ai le même problème ! Et j'ajouterais que le nombre de pages crawlés ne correspond pas au logs apache. J'ai noté également un bot adsbot, je ne sais pas s'il est pris en considération. Il y a aussi d'autres logs comme des "search" ou des "translate" (je n'ai plus la dénomination exacte sous la main).

Il y a au final peu de bots qui se font passer pour google et ils sont facile à repérer... l'ip ne commence pas par 66. Sinon un nslookup en ligne de commande sous Windows permet d'avoir confirmation du propriétaire du domaine auquel appartient l'ip.

C'est vrai que l'origine des stats de la SC est opaque. A mon sens tout ce qui n'est pas en 4xx est pris en considération.

Le temps de téléchargement de chaque ressource est considéré séparemment (les images, les css, les js). Je pense que les 301 sont comptées dans leur ensemble, alors qu'au niveau des logs il y a deux logs qui sont cumulés (un 301, puis un 200) pour le décompte du temps de téléchargement.

Par exemple le bot demande une url qui a été redirigée :
  1. Le serveur met 800 ms pour répondre en 301 et envoyer la nouvelle url
  2. Le bot demande la nouvelle url
  3. La nouvelle url est envoyé en 200 et le serveur met 400 ms pour l'envoyer.
  4. Google considére que ton url a pris 1200 ms. C'est comme cela que j'explique ce truc là.
  5. Si ca se trouve google rajoute son propre temps de traitement entre les deux !
Je scrute depuis un mois les logs et j'ai parfois du mal à comprendre une brusque montée de fièvre !

Pour les redirections j'utilisais une extension Wordpress et les temps de traitement sont délirants (environ 400 ms) par rapport au même traitement dans un htaccess. J'ai donc migrer un max de redirection 301 dans le htaccess.

Pour savoir qui traite le redirection j'utilise cet outil qui précise si la redirection est faite par apache ou par le cms. https://quixapp.com/
 
Dernière édition:
WRInaute impliqué
Exclure les bots qui se font passer pour google, je m'y pencherai quand j'aurai plus de hits dans les logs que dans GWT :)
Effectivement, j'avais compris que c'était l'inverse qui se passait, ça serait plus logique.

Concernant les perfs qui sont quand même le plus gros problème : le premier lien sur lequel j'ai cliqué a mis 13,15s à arriver (page d'accueil, lien "Miami Beach").
=> retour Accueil : 1,19s.
=> Paris : 11,60s
=> List your place : 1,14s
=> Accueil : 1,20s
=> FAQ : 0,44s
=> Legal Notices : 0,86s
=> Accueil : 1,41s
=> Stockholm : 10,48s
=> Solna : 7,25s

Il me parait assez clair qu'il y a vraiment un problème de perfs avec votre site. Tout le temps perdu l'est en état "waiting", donc pendant la génération des page.
 
Discussions similaires
Haut