Google Image ne respecte pas mon robots.txt

WRInaute occasionnel
Salut,

Je viens de constater que depuis la dernière mise à jour de Google Images j'ai des images d'un site qui sont présentes dans l'index.

J'ai un robots.txt qui contient :

User-agent: *
Disallow: /images/
Disallow: /img-aff/
Disallow:
User-agent: Yahoo-MMCrawler
Disallow: /
User-agent: psbotDisallow:
Disallow: /
User-Agent: Googlebot-Image
Disallow: /

Toutes les images en question sont dans le dossier "images" que j'interdit à tous les robots et en plus j'ai mis " User-Agent: Googlebot-Image
Disallow: / " spécifiquement pour Googlebot-Image.

Mon fichier robots.txt est présent depuis le lancement du site.

Le panneau de gestion de Google Sitemap indique bien que Googlebot-Image est Bloquée par ligne 10.

J'ai fait une erreur quelque part ??

Merci.
 
WRInaute occasionnel
Je m'auto-corrige.

J'ai utilisé la procédure pour supprimer du contenu de Google et il semble qu'il n'aime pas la quatrième ligne de mon robots.txt (qui est d'ailleurs inutile)

Toutefois je ne pense pas que le problème vienne de là car j'ai cette "erreur" sur tous mes sites et les autres n'ont pas d'images indexées.

PS : Google a rajouté des fonctions pour la suppression d'images (https://www.google.be/support/webmasters ... swer=35308) j'ai donc ajouté ceci à mes robots.txt :

User-agent: *
Disallow: /*.gif$
User-agent: *
Disallow: /*.jpg$
 
WRInaute accro
christophebe a dit:
J'ai fait une erreur quelque part ??
Oui ! :wink:

Il y a plusieurs erreurs dans tes robots.txt :

- un user-agent déterminé ne devrait apparaître qu'une seule fois et être directement suivi par les Disallow: qui le concernent.

- User-agent: et Disallow: ne peuvent pas se trouver sur la même ligne.

- il est obligatoire de mettre une ligne vide entre des séries de directives successives concernant des user-agents différents.

- les directives concernant un user-agent ne peuvent pas se contredire.
Disallow: /machin, suivi de Disallow: n'est pas acceptable.

Le robots.txt de ton premier message devrait être comme ceci :
Code:
User-agent: * 
Disallow: /images/ 
Disallow: /img-aff/ 

User-agent: Yahoo-MMCrawler 
Disallow: / 

User-agent: psbot
Disallow: / 

User-Agent: Googlebot-Image 
Disallow: /

Jean-Luc

P.S. le support des "*" et "$" par Google n'est pas conforme à la norme robots.txt. Il vaudrait mieux en limiter l'utilisation aux directives destinées uniquement aux robots de Google.
 
WRInaute occasionnel
Merci pour les infos.

J'ai les yeux dessus et je n'avais même pas vu que j'avais inventé un nouveau crawler psbotDisallow: !!

Pour les nouvelles directives de Google tu as certainement raison mieux vaut les limiter à son crawler.

Ceci est-il bon ?

User-Agent: Googlebot-Image
Disallow: /
Disallow: /*.gif$
Disallow: /*.jpg$

Je sais que cela fait double (ou triple) emploi mais bon mieux vaut prévenir que guérir...
 
WRInaute accro
C'est bon. Si Googlebot-Image ne comprend pas qu'il n'est pas le bienvenu après ça, je ne sais pas ce qu'il faut faire ! :lol:

Jean-Luc
 
Discussions similaires
Haut