Crawl, indexation, robots.txt : les mystères de Google expliqués

WebRankInfo · 10 Juin 2013

J'ai regroupé dans un même dossier les résultats de plusieurs tests que j'ai effectués ces dernières semaines, sur le crawl, l'indexation et les interdictions de crawl et d'indexation. Google ne réagit plus de la même façon qu'il y a plusieurs années...

J'ai également testé et validé l'utilisation de la directive Noindex dans le fichier robots.txt, qui n'est documentée ni dans le standard ni chez Google, mais que Google semble pourtant bien suivre.

Bonne lecture ! et surtout n'hésitez pas à commenter et proposer d'autres pistes d'étude ou d'approfondissements.

nza2k · 10 Juin 2013

Merci Olivier pour ce topo.

Très bien vu la nuance de traitement entre les instructions du robots.txt et celles de la meta robot

Sur un de mes sites, qui a changé de version, j'ai mis en place les redirections 301 pour les principales url et j'ai voulu desindéxé le reliquat des anciennes url avec le fichier robotx.txt... Ca fait bien trois semaines, et elles sont toujours dans l'index Google. En fait, après lecture de cet article, j'en déduis qu'elles ne vont pas disparaître de cette manière. Pire, elles vont rester plus longtemps car Google ne va plus les crawler et il ne va pas voir qu'elles ne contiennent plus grand chose (maintient du duplicate content donc !).

Je me souviens qu'il y a quelques années, on pouvait demander à Google une désindexation express en lui indiquant de consulter le robots.txt Ce n'est effectivement plus le cas maintenant, je comprends pourquoi.

Je vais donc essayer la directive noindex à l'intérieur du robots.txt. Sinon, il faudra communiquer à la main les url à désindexer sur GWT.

alain78france · 11 Juin 2013

Bonjour,
Merci , un article clair et passionnant !
Quelques petits points d'ombre encore
mais c'est bien la ligne mystérieuse de notre grand GG.
Alain

nza2k · 11 Juin 2013

Bonjour,

Je viens de mettre en place ça dans le robots.txt :

Code:

User-agent: *
Disallow: /vieux_repertoire_abandonne/
Sitemap: adresse_du_sitemap
User-agent: *
Noindex: /vieux_repertoire_abandonne/

J'ai mis le noindex à la fin, en espérant que les premières instructions, valides, seront lues par tous les moteurs. Si vous voyez des correctifs à apporter, je suis preneur... Sinon, RV dans quelques jours pour vous dire si les vielles url ont bien été désindexées par l'ami GG.

nza2k · 14 Juin 2013

Pr info, à J+3, les vielles url sont toujours indexées.
Sur Google Webmaster Tools, il est indiqué que la date de dernier téléchargement du robots.txt date d'hier, le 13 juin.

J'attends encore quelques jours !

zeb · 14 Juin 2013

Différence entre crawl et indexation
N'oubliez pas qu'il y a une différence entre le crawl (l'exploration selon la traduction usuelle en français) et l'indexation

A mon avis un no-index a défaut de redirection et un vidage du contenu serait plus fonctionnel.

madri2 · 14 Juin 2013

en passant j'ai une question.
Pour un nouveau site avec une nouvelle url et ayant de nombreuses pages, vaut-il mieux laisser google tout crawler et indexer ou vaut-il mieux mettre des meta noindex sur les pages les moins intéressantes ou une autre technique pour limiter le nombre de pages à indexer d'un coup ?