Incohérences stats de crawl et logs apache

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Yceforp, 25 Juillet 2019.

  1. Yceforp
    Yceforp Nouveau WRInaute
    Inscrit:
    25 Juillet 2019
    Messages:
    2
    J'aime reçus:
    0
    Bonjour à tous,

    Je n'avais jamais vraiment prêté attention à ce détail, mais pour la plupart de nos sites il y a un décalage très important entre les statistiques de crawl données par Webmaster Tools, et ce qu'on peut voir en examinant les logs apache.

    Sur notre site principal, les metrics sont bien plus élevées dans GWT :
    - Nombre de pages crawlées : en moyenne GWT indique 2x à 5x plus de pages que ce que nous voyons dans nos logs (un simple grep sur "Googlebot", mais à ma connaissance tous les useragent qui "comptent" ici sont des Googlebot)
    - Moyenne de téléchargement des pages, c'est là que ça pique le plus : on est à quasi x10 (!!!) par rapport à ce qu'on log. On utilise le "%D" des logs apache pour info, qui correspond plus ou moins au time to last byte, donc plutôt cohérent par rapport à ce qu'est censé afficher GWT.

    Concernant le temps de chargement, on est à ~200ms de moyenne d'après nos logs, et à plus de 2s (!!) d'après google. Comme nous avons fait de gros progrès sur ce site, et que tous les autres crawlers nous affirment que nos temps de chargement sont très bons, cela nous étonne de les voir aussi élevés chez google. Surtout que cela doit désormais être super pénalisant. Sur My Ranking Metrics par exemple, nous avons 93% des pages sous les 200ms, et environ 1% au dessus de la seconde pour donner un ordre d'idée.

    Je pensais que nous étions "pourris" par du crawl sur un sous-domaine qui aurait pu nous échapper, mais en creusant un peu je n'ai pas l'impression que ce soit le cas. La tendance est de toute façon identique sur d'autres domaines, qui n'ont pas de sous-domaines.

    Comment expliquer un tel écart ?

    Merci d'avance
     
  2. colonies
    colonies WRInaute occasionnel
    Inscrit:
    10 Septembre 2006
    Messages:
    441
    J'aime reçus:
    36
    Concernant le nombre de pages crawlées : tu utilises Grep avec GoogleBot, mais :
    - As-tu bien exclu des logs les ressources (js, css, images, etc...)
    - As-tu vérifié que les lignes contenant GoogleBot proviennent bien d'IP de Google et pas de bots qui se font passer par Google ?

    Concernant les perfs... c'est étrange, en effet. Tu peux nous partager l'adresse de ton site (éventuellement en MP si tu ne veux pas la partager publiquement) ?
     
  3. Yceforp
    Yceforp Nouveau WRInaute
    Inscrit:
    25 Juillet 2019
    Messages:
    2
    J'aime reçus:
    0
    Les assets sont sur un sous-domaine. Mais, même en les incluant, je suis encore loin du compte.

    Un exemple concret, pour le 20/07 :

    - GWT m'indique 6082 pages crawlées
    - Les logs apache pour le domaine «principal» montrent un crawl sur seulement 1444 pages
    - En incluant tous nos sous-domaines (images, js, tracking, même le blog...), on n'arrive qu'à 2997 pages

    Exclure les bots qui se font passer pour google, je m'y pencherai quand j'aurai plus de hits dans les logs que dans GWT :)

    Le site en question est likibu.com
     
  4. Fred
    Fred WRInaute discret
    Inscrit:
    4 Avril 2019
    Messages:
    68
    J'aime reçus:
    6
    J'ai le même problème ! Et j'ajouterais que le nombre de pages crawlés ne correspond pas au logs apache. J'ai noté également un bot adsbot, je ne sais pas s'il est pris en considération. Il y a aussi d'autres logs comme des "search" ou des "translate" (je n'ai plus la dénomination exacte sous la main).

    Il y a au final peu de bots qui se font passer pour google et ils sont facile à repérer... l'ip ne commence pas par 66. Sinon un nslookup en ligne de commande sous Windows permet d'avoir confirmation du propriétaire du domaine auquel appartient l'ip.

    C'est vrai que l'origine des stats de la SC est opaque. A mon sens tout ce qui n'est pas en 4xx est pris en considération.

    Le temps de téléchargement de chaque ressource est considéré séparemment (les images, les css, les js). Je pense que les 301 sont comptées dans leur ensemble, alors qu'au niveau des logs il y a deux logs qui sont cumulés (un 301, puis un 200) pour le décompte du temps de téléchargement.

    Par exemple le bot demande une url qui a été redirigée :
    1. Le serveur met 800 ms pour répondre en 301 et envoyer la nouvelle url
    2. Le bot demande la nouvelle url
    3. La nouvelle url est envoyé en 200 et le serveur met 400 ms pour l'envoyer.
    4. Google considére que ton url a pris 1200 ms. C'est comme cela que j'explique ce truc là.
    5. Si ca se trouve google rajoute son propre temps de traitement entre les deux !
    Je scrute depuis un mois les logs et j'ai parfois du mal à comprendre une brusque montée de fièvre !

    Pour les redirections j'utilisais une extension Wordpress et les temps de traitement sont délirants (environ 400 ms) par rapport au même traitement dans un htaccess. J'ai donc migrer un max de redirection 301 dans le htaccess.

    Pour savoir qui traite le redirection j'utilise cet outil qui précise si la redirection est faite par apache ou par le cms. https://quixapp.com/
     
    #4 Fred, 26 Juillet 2019
    Dernière édition: 26 Juillet 2019
  5. colonies
    colonies WRInaute occasionnel
    Inscrit:
    10 Septembre 2006
    Messages:
    441
    J'aime reçus:
    36
    Effectivement, j'avais compris que c'était l'inverse qui se passait, ça serait plus logique.

    Concernant les perfs qui sont quand même le plus gros problème : le premier lien sur lequel j'ai cliqué a mis 13,15s à arriver (page d'accueil, lien "Miami Beach").
    => retour Accueil : 1,19s.
    => Paris : 11,60s
    => List your place : 1,14s
    => Accueil : 1,20s
    => FAQ : 0,44s
    => Legal Notices : 0,86s
    => Accueil : 1,41s
    => Stockholm : 10,48s
    => Solna : 7,25s

    Il me parait assez clair qu'il y a vraiment un problème de perfs avec votre site. Tout le temps perdu l'est en état "waiting", donc pendant la génération des page.
     
  6. Fred
    Fred WRInaute discret
    Inscrit:
    4 Avril 2019
    Messages:
    68
    J'aime reçus:
    6
    Je confirme ! Par moment rapide et par moment très lent.
     
Chargement...
Similar Threads - Incohérences stats crawl Forum Date
Analyse BL via différents outils et LongTailPro = incohérences ! Netlinking, backlinks, liens et redirections 24 Octobre 2014
[TEST] Incohérences Google Analytics Google Analytics 7 Juin 2010
Incohérences des temps de chargement dans GWT Google : l'entreprise, les sites web, les services 24 Avril 2010
Incohérences Xiti Administration d'un site Web 15 Mars 2009
Site embeded par Linkedin et impact sur les stats Google Analytics 13 Août 2019
Anomalie stats visiteurs FB dans analytics Facebook 15 Mars 2019
Astuce Détecter un bot qui fausse vos stats Google Analytics 1 Mars 2019
stats taux de rebond et durée sessions Débuter en référencement 7 Février 2019
Stats à zéro depuis Vue SEO créée dans GA Google Analytics 18 Mai 2018
Stats intermittentes Google Analytics 6 Avril 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice