Quand Googlebot fait l'impasse à robots.txt

5_legs · 29 Mai 2009

Il y a des jours où il m'agace !

J'ai sur plusieurs sites une page pour signaler un bug, pour l'exemple on va dire :

/y-a-un-bug.php suivi d'une variable identifiante ce qui nous donne (toujours par exemple)

/y-a-un-bug.php?products_id=39

J'ai bien dans mon robots.txt un

Disallow: /y-a-un-bug.php

Et bien régulièrement il m'en indexe une, je suis obligé de demandé l'effacement dans GWT

Nan mais c'est vrai quoi ! il m'agace à ne pas faire ce que je lui demande !

jeanluc · 29 Mai 2009

Si tu parles du site de ton www, des /signaler_bug.php sont dans l'index, mais sans cache, ce qui veut dire que Google a bien respecté le robots.txt puisqu'il ne les a pas crawlées.

Si tu tiens à interdire toute indexation de ces pages, il faut :
- soit mettre des rel="nofollow" sur tous les liens vers ces pages;
- soit laisser Google les crawler (donc enlever l'interdiction du robots.txt) et mettre une meta robots noindex dans la page même.

Jean-Luc

5_legs · 29 Mai 2009

jeanluc a dit:
Si tu parles du site de ton www, des /signaler_bug.php sont dans l'index, mais sans cache, ce qui veut dire que Google a bien respecté le robots.txt puisqu'il ne les a pas crawlées.

Si tu tiens à interdire toute indexation de ces pages, il faut :
- soit mettre des rel="nofollow" sur tous les liens vers ces pages;
- soit laisser Google les crawler (donc enlever l'interdiction du robots.txt) et mettre une meta robots noindex dans la page même.

Jean-Luc

Bonsoir Jean-Luc, merci pour ta réponse ;-)

Mais les liens sont bien en nofollow

Ensuite si ces pages sont dans l'index c'est bien qu'elles ont été crawlées. non ? suis perdu là
Et dans ce cas pourquoi seulement une et pas toutes ?

En fait je ne voulais tout simplement pas les voir dans l'index.

Ceci dit ce n'est pas grave en soit, c'est juste que je ne comprends pas

jeanluc · 30 Mai 2009

druart a dit:
Ensuite si ces pages sont dans l'index c'est bien qu'elles ont été crawlées. non ?

Pas nécessairement ! L'algo de Google repose en grande partie sur la réputation des pages (PageRank, link juice, TrustRank et compagnie). Une page peut avoir une bonne réputation avant d'avoir été visitée par le robot, mais c'est évidemment l'exception. Dans ton cas, il se peut que la page soit présente seulement quand tu fais site: et qu'elle ne sorte jamais sur une requête "normale".

La méthode la plus fiable pour qu'une page n'apparaisse pas dans Google, c'est :
- laisser Googlebot visiter la page (donc pas d'interdiction dans robots.txt)
- et mettre une meta robots noindex dans la page même.
Ainsi Googlebot visitera la page et il y verra que tu ne veux pas qu'elle soit indexée.

En résumé :
- robots.txt interdit seulement le crawl (et rend ainsi peu probable l'indexation, mais ne l'interdit pas)
- meta robots noindex interdit l'indexation (mais il faut que le crawl soit autorisé)

Jean-Luc

5_legs · 30 Mai 2009

Merci.

Je pense donc que désormais je vais prendre des meta "bloquant" et ranger mon robot alors puisque je ne jouerai plus avec.

;-)