Stimuler GoogleBot pour crawler de nouvelles pages

passion · 24 Janvier 2021

Bonjour,
Je me suis développé un module très intéressant et efficace qui parse les logs et extrait le passage de GoogleBot.
Je me rends compte qu'il est constant dans ses crawls journaliers.
Actuellement, il crawle + ou - 35 pages/jour.
Comme maintenant, nous parlons de budget crawl et de crawl prédictif, j'essaye de le guider à crawler les pages qui m'intéresse. Et cette constante + ou - 35 montre bien que je suis dans un budget journalier.

Je perds env. 50% d'efficacité de ses crawls journalier car il va crawler des js ou pages connues en noindex. Donc je fous de ces pages. Elles n'ont pas lieu d'y apporter de l'intérêt.
D'un autre côté, je ne veux pas les mettre dans le robots.txt car sinon elles risqueraient d'être indexées car le bot ne pourrait plus se rendre compte qu'elles sont en noindex !

C'est cornélien !

J'ai pu aussi me rendre compte que son bot est extrêmement réactif quant à crawler une nouvelle page.
Dans les 1mn qui suivent la mise en ligne d'une nouvelle page, j'ai pu me rendre compte que googlebot avait crawlé la page. Malheureusement cela signifie pas pour autant son indexation immédiate.
C'est ce que j'essaie aussi d'améliorer, le ratio entre crawl et indexation.

Y-êtes-vous déjà penché ?
Merci

WebRankInfo · 24 Janvier 2021

combien as-tu d'URL sur le site ? si c'est moins de 100.000 (allez, disons 10.000), la notion de crawl budget ne te concerne pas. Sauf si tu publies plein de nouvelles URL par jour.

le crawl des JS ne pose pas de pb (ça ne réduit pas le reste du crawl)
pour éviter de crawler les noindex, peux-tu éviter de faire des liens vers elles ?

pour que Google indexe la majorité des URL qu'il crawle, c'est l'objet de mon tuto (payant) ;-)

passion · 24 Janvier 2021

Merci pour ces infos

Oh non, je suis sous la barre des 10K. Si tu parles de toutes les urls confondues, je suis à env. 1500 mais volontairement indexables, env. 150.
Ah ok, je ne savais pas pour le js.
Eviter de faire des liens vers elles ? Euh bah, non... c'est des liens internes, j'en ai besoin pour afficher des fonctionnalités mais elles n'ont pas un contenu utile à indexer. C'est pour cette raison qu'elles sont en noindex. Maintenant je comprends bien que comme le robots.txt ne bloque pas l'accès, bah... il passe dedans

WebRankInfo · 24 Janvier 2021

si, le robots.txt est censé bloquer le crawl. Sauf parfois, et c'est souvent quand il y a de nombreux liens vers les URL.
déjà, essaie de mettre ces liens en nofollow

emualliug · 25 Janvier 2021

passion a dit:
Maintenant je comprends bien que comme le robots.txt ne bloque pas l'accès, bah... il passe dedans

Dans la plupart des cas, robots.txt il bloque bien l'accès au robot d'exploration, mais il n'empêche pas l'indexation.

Et une vidéo de Matt Cutts pour comprendre pourquoi Google indexe des pages qu'il n'explore pas.