Fichier robots.txt : erreurs d'analyse dans GWT

LionelWRI · 19 Janvier 2012

J'ai testé mon fichier "robots.txt" généré par Google via mon compte Google à :
Configuration du site -> Accès du robot…
________________________________________________________________
Résultats de l'analyse
Valeur Résultat
Ligne 0 : http://monsite.free.fr/robots.txt Le fichier robots.txt n’est pas valide.

Texte de http://monsite.free.fr/robots.txt
User-agent: *
Allow: /

URL Spécifiez les URL et les user-agents à tester.
http://monsite.free.fr/
________________________________________________________________

Quelqu'un pourrait me dire pourquoi "Le fichier robots.txt n’est pas valide." ?

Je butte certainement sur quelque chose de simple mais je connais pas très bien tout cela…

Merci d'avance à la communauté WRI :wink:

lunicrea · 19 Janvier 2012

Re: fichier robots.txt

Salut !

il me semble que la ligne Allow: n'est autorisée que pour un sitemap valide, exemple :

Code:

Allow: /sitemap.xml

Si tu n'utilises pas de Disallow et de sitemap alors il faut juste mettre

Code:

User-agent: *

Cela étant, il ne sert à rien du coup car tu ne demandes aucune restriction aux robots ...

LionelWRI · 19 Janvier 2012

Re: fichier robots.txt

Merci. Mais même avec :

Code:

Allow: /sitemap.xml

Google m'affiche toujours : "Le fichier robots.txt n’est pas valide." :roll:

jeanluc · 19 Janvier 2012

Re: fichier robots.txt

Tu as peut-être des caractères spéciaux cachés dans ton fichier. robots.txt doit être créé avec un éditeur de texte simple comme Notepad (Bloc-notes): formatage style Word ou UTF-8 interdits.

Jean-Luc

Taranis · 19 Janvier 2012

Re: fichier robots.txt

http://www.robotstxt.org

LionelWRI · 19 Janvier 2012

Re: fichier robots.txt

En faite, j'ai mis cela :

User-agent: *
Allow: /
Disallow: / erreur404.html
Disallow: / travaux.html

Mais toujours pas reconnu par Google. Je suis sur Mac avec TextEdit qui enregistre en "Format texte".

Curieux…

jeanluc · 19 Janvier 2012

Re: fichier robots.txt

Essaie avec EXACTEMENT ceci :

Code:

User-agent: *
Disallow: /erreur404.html
Disallow: /travaux.html

J'ai supprimé le "allow" non standard et inutile et il ne fallait pas d'espace après les /.

Jean-Luc

Taranis · 19 Janvier 2012

Re: fichier robots.txt

LionelWRI a dit:
En faite, j'ai mis cela :

User-agent: *
Allow: /
Disallow: / erreur404.html
Disallow: / travaux.html

Mais toujours pas reconnu par Google. Je suis sur Mac avec TextEdit qui enregistre en "Format texte".

Curieux…

Et si tu vires la ligne :

Code:

Allow: /

Ça donne quoi ?

Taranis · 19 Janvier 2012

Re: fichier robots.txt

Ok, deuz

LionelWRI · 20 Janvier 2012

Re: fichier robots.txt

Grand merci à tous

Code:

User-agent: *
Disallow: /erreur404.html
Disallow: /travaux.html

était la bonne solution.

Maintenant, j'ai tenté :

Code:

User-agent: *
Sitemap: http:/monsite.free.fr/sitemap.xml
Disallow: /erreur404.html
Disallow: /travaux.html

Super !

lunicrea · 20 Janvier 2012

Re: fichier robots.txt

LionelWRI a dit:

Hmm et ça marche cette syntaxe ?!

Taranis · 20 Janvier 2012

Re: fichier robots.txt

lunicrea a dit:
LionelWRI a dit:

Code:

User-agent: * Sitemap: http:/monsite.free.fr/sitemap.xml Disallow: /erreur404.html Disallow: /travaux.html

Cliquez pour agrandir...

Hmm et ça marche cette syntaxe ?!

Ben d'après ( http://www.sitemaps.org/protocol.html#submit_robots ) on dirait

Mais il est peut-être temps que les robots et autres crawlers se dépatouillent eux-mêmes de ce qu'ils cherchent. Les webmasters ont bien d'autres choses à faire que de s'embêter à faire des courbettes à des entreprises multi-milliardaires

LionelWRI · 20 Janvier 2012

Re: fichier robots.txt

Hmm et ça marche cette syntaxe ?!

En tout cas voici les résultats que me donne Google en allant à :
Outils pour les webmasters -> Accès du robot d'exploration

Code:

________________________________________________________________________________________________
[b][size=150]Résultats de l'analyse[/size][/b]
[b]Valeur                                                                       Résultat[/b]
Ligne 2 : Sitemap: http://monsite.free.fr/sitemap.xml	Référence à un plan Sitemap valide détectée

[b]Texte de http://monsite.free.fr/robots.txt[/b]
User-agent: *
Sitemap: http://monsite.free.fr/sitemap.xml
Disallow: /erreur404.html
Disallow: /travaux.html

[b]URL[/b] Spécifiez les URL et les user-agents à tester.
http://monsite.free.fr/
________________________________________________________________________________________________

Ainsi j'autorise tous les robots à indexer mes pages, à consulter mon fichier "sitemap.xml" mais je ne les autorise pas à indexer les pages "erreur404.html" ni "travaux.html" (si j'ai tout bien compris). J'espère que c'est suffisant...

Encore merci à votre aide à tous

Maintenant je vais m'occuper des balises meta robots et meta sitemap. :roll:

WebRankInfo · 23 Janvier 2012

Re: fichier robots.txt

lunicrea a dit:
Salut !

il me semble que la ligne Allow: n'est autorisée que pour un sitemap valide, exemple :

Code:

Allow: /sitemap.xml

Si tu n'utilises pas de Disallow et de sitemap alors il faut juste mettre

Code:

User-agent: *

Attention :
- pour déclarer un sitemap dans le fichier robots.txt ce n'est pas Allow mais sitemap
- Allow ne sert à rien il me semble, le fichier robots.txt ne sert qu'à interdire le crawl (par défaut tout le reste est autorisé)

Autres remarques :
- si tu n'as rien à interdire sur le site, tu peux mettre un fichier totalement vide, ça ira très bien et ça ne génèrera aucune erreur
- parfois le fichier sitemap contient des indications que l'on ne devrait pas donner aux concurrents. Dans ce cas il ne faut pas le nommer sitemap.xml et il ne faut pas le déclarer dans le fichier robots.txt mais directement dans Google Webmaster Tools.

NickyLarson · 23 Janvier 2012

Re: fichier robots.txt

WebRankInfo a dit:
- Allow ne sert à rien il me semble, le fichier robots.txt ne sert qu'à interdire le crawl (par défaut tout le reste est autorisé)

Du coup, pour le robots.txt de WRI, ceci n'est pas correct (même si cela n'a pas d'impact)?

User-agent: googlebot-image
Allow: /images/

Un autre exemple, actuellement sur WRI le fichier est sous cette forme:
User-agent: Xenu's Link Sleuth 1.1c
User-agent: YRSPider
User-agent: Zeus
Disallow: /

Est-ce correcte pour donner une instruction générale?
Ou alors il faudrait faire plutôt comme ceci:

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: YRSPider
Disallow: /

User-agent: Zeus
Disallow: /

LionelWRI · 23 Janvier 2012

- parfois le fichier sitemap contient des indications que l'on ne devrait pas donner aux concurrents. Dans ce cas il ne faut pas le nommer sitemap.xml et il ne faut pas le déclarer dans le fichier robots.txt mais directement dans Google Webmaster Tools.

rien n'empêchera personne de saisir : /sitemap.xml et cela sur bon nombres de sites… sauf s'il n'y a pas de fichier sitemap.xml sur le site :wink:

WebRankInfo · 23 Janvier 2012

@NickyLarson : pour Google Images j'avais trouvé le conseil de l'autoriser explicitement pour favoriser le crawl
pour les interdictions multiples, autant l'écrire comme je l'ai fait, c'est plus court et ça reste valide.

oui LionelWRI, c'est pour ça que j'ai conseillé de le nommer autrement

NickyLarson · 23 Janvier 2012

et pour la structure des bots/disallow la syntaxe est correcte telle qu'elle est dans le robots.txt WRI ou c'est mieux de mettre un disallow par bot?

WebRankInfo · 23 Janvier 2012

je t'ai déjà répondu ;-)

NickyLarson · 23 Janvier 2012

Autant pour moi, j'avais mal lu

Merci.

LionelWRI · 23 Janvier 2012

@ WebRankInfo

oui LionelWRI, c'est pour ça que j'ai conseillé de le nommer autrement

C'est-à-dire que je peux baptiser sitemap.xml par zebullon.xml (par exemple) et le faire reconnaître ainsi par Google ?
Le nom de "sitemap" ne serait donc qu'un nom quelconque ? :?:

WebRankInfo · 23 Janvier 2012

en effet, tu l'appelles comme tu veux (et au passage, c'est souvent inutile de s'embêter avec le format XML)

LionelWRI · 23 Janvier 2012

Merci beaucoup !

lunicrea · 24 Janvier 2012

Re: fichier robots.txt

WebRankInfo a dit:
lunicrea a dit:

Salut !

il me semble que la ligne Allow: n'est autorisée que pour un sitemap valide, exemple :

Code:

Allow: /sitemap.xml

Si tu n'utilises pas de Disallow et de sitemap alors il faut juste mettre

Code:

User-agent: *

Cliquez pour agrandir...

Attention :
- pour déclarer un sitemap dans le fichier robots.txt ce n'est pas Allow mais sitemap
- Allow ne sert à rien il me semble, le fichier robots.txt ne sert qu'à interdire le crawl (par défaut tout le reste est autorisé)

Oui il semblerait mais d'où je tire ce paramètre Allow alors ? C'est bizarre, je l'ai pourtant pas sorti de mon chapeau, c'est pas une ancienne façon de faire ?

Sinon, si j'avais réfléchi 5 minutes, j'aurais vu qu'en fait j'utilisais déjà le paramétrage "sitemap: http://www.example.com/sitemap.xml" dans mon robots.txt ! :roll:

Par contre, me parait bizarre de vouloir "cacher" son sitemap des concurrents, car avec un peu de jugeotte c'est vraiment pas dur de le retrouver

Bref, je crois que j'ai besoin de vacances. :mrgreen:

UsagiYojimbo · 24 Janvier 2012

Rien ne t'oblige à spécifier le sitemap.xml dans le robots.txt. Dans ce cas de figure, si le nom du fichier sitemap.xml n'est pas standard, difficile de deviner comment se nomme le fichier...

lunicrea · 24 Janvier 2012

UsagiYojimbo a dit:
Rien ne t'oblige à spécifier le sitemap.xml dans le robots.txt

Hmm pourtant, je vois un paquet de sites "honorables" le faire. Alors si ça sert à rien ou que c'est prendre des risques concurrentiels, pourquoi autant le font ? :?

Et concernant le paramètre Allow, si on regarde de plus près dans le centre d'aide de Google, on tombe sur ce genre de phrase :

L'instruction Allow: /*?$ autorise l'accès à toute URL se terminant par un point d'interrogation. (En d'autres termes, elle autorise l'accès à toute URL qui commence par votre nom de domaine, suivi d'une chaîne et qui se termine par un point d'interrogation : aucun caractère ne doit être ajouté après le point d'interrogation).

Ou encore

Pour empêcher l'exploration des pages de votre site tout en continuant à afficher des annonces AdSense sur ces pages, désactivez tous les robots autres, à l'exception de Mediapartners-Google. Dans ce cas, les pages n'apparaissent pas dans les résultats de recherche mais le robot Mediapartners-Google peut tout de même les analyser pour définir les annonces à diffuser. Le robot Mediapartners-Google ne partage aucune page avec les autres user-agents Google. Exemples :

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /

Bref, il y aurait donc une utilisation pour ce paramètre ...

Taranis · 24 Janvier 2012

Personnellement, je préfère me référer à ce genre de site ( http://www.w3.org/robots.txt , http://www.w3.org/TR/html4/appendix/notes.html#h-B.4.1.1 ) plutôt qu'à la science hasardeuse de Google

jeanluc · 24 Janvier 2012

lunicrea a dit:
Bref, il y aurait donc une utilisation pour ce paramètre ...

Oui, pour les robots de Google. Ce n'est pas standard.

Jean-Luc

LionelWRI · 30 Janvier 2012

Je croyais en être sorti mais l'interdiction au "soussousdossier" passe par ce chemin indiqué :

User-agent: *
Sitemap: http:/monsite.free.fr/sitemap.xml
Disallow: /erreur404.html
Disallow: /travaux.html
Disallow: /dossier/sousdossier/soussousdossier/

Or cela donne un message d'erreur par Google.

Donc comment rédiger autrement cette dernière ligne ?
(enfin, je crois que c'est cette ligne qui donne l'erreur Google)

jeanluc · 30 Janvier 2012

Ton extrait de robots.txt est valide, mais ce serait plus clair d'écrire :

Code:

User-agent: *
Disallow: /erreur404.html
Disallow: /travaux.html
Disallow: /dossier/sousdossier/soussousdossier/

Sitemap: http:/monsite.free.fr/sitemap.xml

L'erreur détectée par GWT doit être ailleurs. Ce serait plus simple d'aider si tu indiquais l'erreur précise.

Jean-Luc

LionelWRI · 31 Janvier 2012

@ Jeau-Luc
Hier soir (avant d'avoir lu ta réponse) j'avais supprimé cette dernière ligne et ce matin l'erreur n'était plus signalée par Google.
Par acquis de conscience, je viens de remettre mon fichier "robots.txt" comme tu me le recommandes.
Je vais voir si demain l'erreur revient. :roll:

Dans "Outils pour les webmasters -> Tableau de bord", il y a toujours :

Erreurs d'exploration
Accès restreint par un fichier robots.txt

(mais cela me semble normal vu qu'en effet j'ai bloqué des pages qui se trouvent à l'intérieur du dernier "soussousdossier")

Merci et rendez-vous demain

Bonne journée

LionelWRI · 1 Février 2012

Dommage que je ne peux envoyer la copie d'écran

En tout cas mon message est revenu.

Dans "Outils pour les webmasters -> Tableau de bord", j'ai un bandeau rouge avec :

Une page importante est bloquée par un fichier robots.txt. Informations supplémentaires

et là en cliquant j'arrive sur la page "Accès du robot".

Dois-je en tenir compte ?

jeanluc · 1 Février 2012

"Une page importante est bloquée par un fichier robots.txt." ne me semble pas être un message d'erreur, mais plutôt un avertissement que ton robots.txt bloque l'accès à certaines pages,... mais c'est pour cela que tu l'utilises.

Je ne sais pas pourquoi Google met ce message en évidence en rouge. Peut-être pour culpabiliser celui qui ose lui interdire le passage... :wink:

Jean-Luc

Taranis · 1 Février 2012

jeanluc a dit:
Je ne sais pas pourquoi Google met ce message en évidence en rouge. Peut-être pour culpabiliser celui qui ose lui interdire le passage... :wink:

Jean-Luc

Hihi

C'est comme partout: la peur, l'intimidation, sous couvert de conseils provenant de gens vus comme sérieux ou en position dominante, ça marche

.
Google n'est qu'un utilisateur du web, mais beaucoup pensent qu'il est le web. Grosse erreur !

Le fichier robots.txt répond à des standards élaborés par des personnes bien plus recommandables que les technico-commerciaux de Google.
Cependant, chacun a la liberté de faire ce qu'il veut ! Et c'est heureux !

LionelWRI · 1 Février 2012

Donc, je laisse tel quel et je ne tiens pas compte de ce message.

Merci à tous.

LionelWRI · 4 Février 2012

Finalement :

Code:

User-agent: *
Disallow: /erreur404.html
Disallow: /travaux.html
Disallow: /sousdossier/soussousdossier/

Sitemap: http:/monsite.free.fr/sitemap.xml

est accepté par Google

, plus de message d'erreur !

En fait il faut être patient, y croire et attendre…

Encore merci à tous ceux qui m'ont apporté leurs conseils :wink:

lunicrea · 4 Février 2012

Salut !

Content que tu ais réussi à voir le bout du tunnel

Bonne continuation.