Bonjour à tous,
Je n'avais jamais vraiment prêté attention à ce détail, mais pour la plupart de nos sites il y a un décalage très important entre les statistiques de crawl données par Webmaster Tools, et ce qu'on peut voir en examinant les logs apache.
Sur notre site principal, les metrics sont bien plus élevées dans GWT :
- Nombre de pages crawlées : en moyenne GWT indique 2x à 5x plus de pages que ce que nous voyons dans nos logs (un simple grep sur "Googlebot", mais à ma connaissance tous les useragent qui "comptent" ici sont des Googlebot)
- Moyenne de téléchargement des pages, c'est là que ça pique le plus : on est à quasi x10 (!!!) par rapport à ce qu'on log. On utilise le "%D" des logs apache pour info, qui correspond plus ou moins au time to last byte, donc plutôt cohérent par rapport à ce qu'est censé afficher GWT.
Concernant le temps de chargement, on est à ~200ms de moyenne d'après nos logs, et à plus de 2s (!!) d'après google. Comme nous avons fait de gros progrès sur ce site, et que tous les autres crawlers nous affirment que nos temps de chargement sont très bons, cela nous étonne de les voir aussi élevés chez google. Surtout que cela doit désormais être super pénalisant. Sur My Ranking Metrics par exemple, nous avons 93% des pages sous les 200ms, et environ 1% au dessus de la seconde pour donner un ordre d'idée.
Je pensais que nous étions "pourris" par du crawl sur un sous-domaine qui aurait pu nous échapper, mais en creusant un peu je n'ai pas l'impression que ce soit le cas. La tendance est de toute façon identique sur d'autres domaines, qui n'ont pas de sous-domaines.
Comment expliquer un tel écart ?
Merci d'avance
Je n'avais jamais vraiment prêté attention à ce détail, mais pour la plupart de nos sites il y a un décalage très important entre les statistiques de crawl données par Webmaster Tools, et ce qu'on peut voir en examinant les logs apache.
Sur notre site principal, les metrics sont bien plus élevées dans GWT :
- Nombre de pages crawlées : en moyenne GWT indique 2x à 5x plus de pages que ce que nous voyons dans nos logs (un simple grep sur "Googlebot", mais à ma connaissance tous les useragent qui "comptent" ici sont des Googlebot)
- Moyenne de téléchargement des pages, c'est là que ça pique le plus : on est à quasi x10 (!!!) par rapport à ce qu'on log. On utilise le "%D" des logs apache pour info, qui correspond plus ou moins au time to last byte, donc plutôt cohérent par rapport à ce qu'est censé afficher GWT.
Concernant le temps de chargement, on est à ~200ms de moyenne d'après nos logs, et à plus de 2s (!!) d'après google. Comme nous avons fait de gros progrès sur ce site, et que tous les autres crawlers nous affirment que nos temps de chargement sont très bons, cela nous étonne de les voir aussi élevés chez google. Surtout que cela doit désormais être super pénalisant. Sur My Ranking Metrics par exemple, nous avons 93% des pages sous les 200ms, et environ 1% au dessus de la seconde pour donner un ordre d'idée.
Je pensais que nous étions "pourris" par du crawl sur un sous-domaine qui aurait pu nous échapper, mais en creusant un peu je n'ai pas l'impression que ce soit le cas. La tendance est de toute façon identique sur d'autres domaines, qui n'ont pas de sous-domaines.
Comment expliquer un tel écart ?
Merci d'avance