Fichier robots.txt : erreurs d'analyse dans GWT

LionelWRI

WRInaute discret
J'ai testé mon fichier "robots.txt" généré par Google via mon compte Google à :
Configuration du site -> Accès du robot…
________________________________________________________________
Résultats de l'analyse
Valeur Résultat

Ligne 0 : http://monsite.free.fr/robots.txt Le fichier robots.txt n’est pas valide.

Texte de http://monsite.free.fr/robots.txt
User-agent: *
Allow: /

URL Spécifiez les URL et les user-agents à tester.
http://monsite.free.fr/
________________________________________________________________

Quelqu'un pourrait me dire pourquoi "Le fichier robots.txt n’est pas valide." ?

Je butte certainement sur quelque chose de simple mais je connais pas très bien tout cela…

Merci d'avance à la communauté WRI :wink:
 

lunicrea

WRInaute occasionnel
Re: fichier robots.txt

Salut !

il me semble que la ligne Allow: n'est autorisée que pour un sitemap valide, exemple :
Code:
Allow: /sitemap.xml

Si tu n'utilises pas de Disallow et de sitemap alors il faut juste mettre
Code:
User-agent: *

Cela étant, il ne sert à rien du coup car tu ne demandes aucune restriction aux robots ...
 

LionelWRI

WRInaute discret
Re: fichier robots.txt

Merci. Mais même avec :

Code:
Allow: /sitemap.xml
Google m'affiche toujours : "Le fichier robots.txt n’est pas valide." :roll:
 

jeanluc

WRInaute accro
Re: fichier robots.txt

Tu as peut-être des caractères spéciaux cachés dans ton fichier. robots.txt doit être créé avec un éditeur de texte simple comme Notepad (Bloc-notes): formatage style Word ou UTF-8 interdits.

Jean-Luc
 

LionelWRI

WRInaute discret
Re: fichier robots.txt

En faite, j'ai mis cela :

User-agent: *
Allow: /
Disallow: / erreur404.html
Disallow: / travaux.html

Mais toujours pas reconnu par Google. Je suis sur Mac avec TextEdit qui enregistre en "Format texte".

Curieux…
 

jeanluc

WRInaute accro
Re: fichier robots.txt

Essaie avec EXACTEMENT ceci :
Code:
User-agent: *
Disallow: /erreur404.html
Disallow: /travaux.html
J'ai supprimé le "allow" non standard et inutile et il ne fallait pas d'espace après les /.

Jean-Luc
 

Taranis

WRInaute occasionnel
Re: fichier robots.txt

LionelWRI a dit:
En faite, j'ai mis cela :

User-agent: *
Allow: /
Disallow: / erreur404.html
Disallow: / travaux.html

Mais toujours pas reconnu par Google. Je suis sur Mac avec TextEdit qui enregistre en "Format texte".

Curieux…

Et si tu vires la ligne :
Code:
Allow: /
Ça donne quoi ?
 

LionelWRI

WRInaute discret
Re: fichier robots.txt

Grand merci à tous :D

Code:
User-agent: *
Disallow: /erreur404.html
Disallow: /travaux.html
était la bonne solution.

Maintenant, j'ai tenté :

Code:
User-agent: *
Sitemap: http:/monsite.free.fr/sitemap.xml
Disallow: /erreur404.html
Disallow: /travaux.html
Super !
 

Taranis

WRInaute occasionnel
Re: fichier robots.txt

lunicrea a dit:
LionelWRI a dit:
Code:
User-agent: *
Sitemap: http:/monsite.free.fr/sitemap.xml
Disallow: /erreur404.html
Disallow: /travaux.html

Hmm et ça marche cette syntaxe ?! :eek:

Ben d'après ( http://www.sitemaps.org/protocol.html#submit_robots ) on dirait :)

Mais il est peut-être temps que les robots et autres crawlers se dépatouillent eux-mêmes de ce qu'ils cherchent. Les webmasters ont bien d'autres choses à faire que de s'embêter à faire des courbettes à des entreprises multi-milliardaires ;)
 

LionelWRI

WRInaute discret
Re: fichier robots.txt

Hmm et ça marche cette syntaxe ?!
En tout cas voici les résultats que me donne Google en allant à :
Outils pour les webmasters -> Accès du robot d'exploration
Code:
________________________________________________________________________________________________
[b][size=150]Résultats de l'analyse[/size][/b]
[b]Valeur                                                                       Résultat[/b]
Ligne 2 : Sitemap: http://monsite.free.fr/sitemap.xml	Référence à un plan Sitemap valide détectée

[b]Texte de http://monsite.free.fr/robots.txt[/b]
User-agent: *
Sitemap: http://monsite.free.fr/sitemap.xml
Disallow: /erreur404.html
Disallow: /travaux.html

[b]URL[/b] Spécifiez les URL et les user-agents à tester.
http://monsite.free.fr/
________________________________________________________________________________________________
Ainsi j'autorise tous les robots à indexer mes pages, à consulter mon fichier "sitemap.xml" mais je ne les autorise pas à indexer les pages "erreur404.html" ni "travaux.html" (si j'ai tout bien compris). J'espère que c'est suffisant...

Encore merci à votre aide à tous :)

Maintenant je vais m'occuper des balises meta robots et meta sitemap. :roll:
 

WebRankInfo

Olivier Duffez (admin)
Membre du personnel
Re: fichier robots.txt

lunicrea a dit:
Salut !

il me semble que la ligne Allow: n'est autorisée que pour un sitemap valide, exemple :
Code:
Allow: /sitemap.xml

Si tu n'utilises pas de Disallow et de sitemap alors il faut juste mettre
Code:
User-agent: *
Attention :
- pour déclarer un sitemap dans le fichier robots.txt ce n'est pas Allow mais sitemap
- Allow ne sert à rien il me semble, le fichier robots.txt ne sert qu'à interdire le crawl (par défaut tout le reste est autorisé)

Autres remarques :
- si tu n'as rien à interdire sur le site, tu peux mettre un fichier totalement vide, ça ira très bien et ça ne génèrera aucune erreur
- parfois le fichier sitemap contient des indications que l'on ne devrait pas donner aux concurrents. Dans ce cas il ne faut pas le nommer sitemap.xml et il ne faut pas le déclarer dans le fichier robots.txt mais directement dans Google Webmaster Tools.
 

NickyLarson

WRInaute occasionnel
Re: fichier robots.txt

WebRankInfo a dit:
- Allow ne sert à rien il me semble, le fichier robots.txt ne sert qu'à interdire le crawl (par défaut tout le reste est autorisé)

Du coup, pour le robots.txt de WRI, ceci n'est pas correct (même si cela n'a pas d'impact)?

User-agent: googlebot-image
Allow: /images/

Un autre exemple, actuellement sur WRI le fichier est sous cette forme:
User-agent: Xenu's Link Sleuth 1.1c
User-agent: YRSPider
User-agent: Zeus
Disallow: /

Est-ce correcte pour donner une instruction générale?
Ou alors il faudrait faire plutôt comme ceci:

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: YRSPider
Disallow: /

User-agent: Zeus
Disallow: /
 

LionelWRI

WRInaute discret
- parfois le fichier sitemap contient des indications que l'on ne devrait pas donner aux concurrents. Dans ce cas il ne faut pas le nommer sitemap.xml et il ne faut pas le déclarer dans le fichier robots.txt mais directement dans Google Webmaster Tools.
rien n'empêchera personne de saisir : /sitemap.xml et cela sur bon nombres de sites… sauf s'il n'y a pas de fichier sitemap.xml sur le site :wink:
 

WebRankInfo

Olivier Duffez (admin)
Membre du personnel
@NickyLarson : pour Google Images j'avais trouvé le conseil de l'autoriser explicitement pour favoriser le crawl
pour les interdictions multiples, autant l'écrire comme je l'ai fait, c'est plus court et ça reste valide.

oui LionelWRI, c'est pour ça que j'ai conseillé de le nommer autrement
 

NickyLarson

WRInaute occasionnel
et pour la structure des bots/disallow la syntaxe est correcte telle qu'elle est dans le robots.txt WRI ou c'est mieux de mettre un disallow par bot?
 

LionelWRI

WRInaute discret
@ WebRankInfo

oui LionelWRI, c'est pour ça que j'ai conseillé de le nommer autrement
C'est-à-dire que je peux baptiser sitemap.xml par zebullon.xml (par exemple) et le faire reconnaître ainsi par Google ?
Le nom de "sitemap" ne serait donc qu'un nom quelconque ? :?:
 

WebRankInfo

Olivier Duffez (admin)
Membre du personnel
en effet, tu l'appelles comme tu veux (et au passage, c'est souvent inutile de s'embêter avec le format XML)
 

lunicrea

WRInaute occasionnel
Re: fichier robots.txt

WebRankInfo a dit:
lunicrea a dit:
Salut !

il me semble que la ligne Allow: n'est autorisée que pour un sitemap valide, exemple :
Code:
Allow: /sitemap.xml

Si tu n'utilises pas de Disallow et de sitemap alors il faut juste mettre
Code:
User-agent: *
Attention :
- pour déclarer un sitemap dans le fichier robots.txt ce n'est pas Allow mais sitemap
- Allow ne sert à rien il me semble, le fichier robots.txt ne sert qu'à interdire le crawl (par défaut tout le reste est autorisé)

Oui il semblerait mais d'où je tire ce paramètre Allow alors ? C'est bizarre, je l'ai pourtant pas sorti de mon chapeau, c'est pas une ancienne façon de faire ?

Sinon, si j'avais réfléchi 5 minutes, j'aurais vu qu'en fait j'utilisais déjà le paramétrage "sitemap: http://www.example.com/sitemap.xml" dans mon robots.txt ! :roll:

Par contre, me parait bizarre de vouloir "cacher" son sitemap des concurrents, car avec un peu de jugeotte c'est vraiment pas dur de le retrouver ;)

Bref, je crois que j'ai besoin de vacances. :mrgreen:
 

UsagiYojimbo

WRInaute accro
Rien ne t'oblige à spécifier le sitemap.xml dans le robots.txt. Dans ce cas de figure, si le nom du fichier sitemap.xml n'est pas standard, difficile de deviner comment se nomme le fichier...
 

lunicrea

WRInaute occasionnel
UsagiYojimbo a dit:
Rien ne t'oblige à spécifier le sitemap.xml dans le robots.txt
Hmm pourtant, je vois un paquet de sites "honorables" le faire. Alors si ça sert à rien ou que c'est prendre des risques concurrentiels, pourquoi autant le font ? :?

Et concernant le paramètre Allow, si on regarde de plus près dans le centre d'aide de Google, on tombe sur ce genre de phrase :
L'instruction Allow: /*?$ autorise l'accès à toute URL se terminant par un point d'interrogation. (En d'autres termes, elle autorise l'accès à toute URL qui commence par votre nom de domaine, suivi d'une chaîne et qui se termine par un point d'interrogation : aucun caractère ne doit être ajouté après le point d'interrogation).
Ou encore
Pour empêcher l'exploration des pages de votre site tout en continuant à afficher des annonces AdSense sur ces pages, désactivez tous les robots autres, à l'exception de Mediapartners-Google. Dans ce cas, les pages n'apparaissent pas dans les résultats de recherche mais le robot Mediapartners-Google peut tout de même les analyser pour définir les annonces à diffuser. Le robot Mediapartners-Google ne partage aucune page avec les autres user-agents Google. Exemples :

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Bref, il y aurait donc une utilisation pour ce paramètre ...
 

LionelWRI

WRInaute discret
Je croyais en être sorti mais l'interdiction au "soussousdossier" passe par ce chemin indiqué :
User-agent: *
Sitemap: http:/monsite.free.fr/sitemap.xml
Disallow: /erreur404.html
Disallow: /travaux.html
Disallow: /dossier/sousdossier/soussousdossier/
Or cela donne un message d'erreur par Google.

Donc comment rédiger autrement cette dernière ligne ?
(enfin, je crois que c'est cette ligne qui donne l'erreur Google)
 

jeanluc

WRInaute accro
Ton extrait de robots.txt est valide, mais ce serait plus clair d'écrire :
Code:
User-agent: *
Disallow: /erreur404.html
Disallow: /travaux.html
Disallow: /dossier/sousdossier/soussousdossier/

Sitemap: http:/monsite.free.fr/sitemap.xml
L'erreur détectée par GWT doit être ailleurs. Ce serait plus simple d'aider si tu indiquais l'erreur précise.

Jean-Luc
 

LionelWRI

WRInaute discret
@ Jeau-Luc
Hier soir (avant d'avoir lu ta réponse) j'avais supprimé cette dernière ligne et ce matin l'erreur n'était plus signalée par Google.
Par acquis de conscience, je viens de remettre mon fichier "robots.txt" comme tu me le recommandes.
Je vais voir si demain l'erreur revient. :roll:

Dans "Outils pour les webmasters -> Tableau de bord", il y a toujours :
  • Erreurs d'exploration
    Accès restreint par un fichier robots.txt
(mais cela me semble normal vu qu'en effet j'ai bloqué des pages qui se trouvent à l'intérieur du dernier "soussousdossier")

Merci et rendez-vous demain ;)
Bonne journée
 

LionelWRI

WRInaute discret
Dommage que je ne peux envoyer la copie d'écran :(

En tout cas mon message est revenu.

Dans "Outils pour les webmasters -> Tableau de bord", j'ai un bandeau rouge avec :
Une page importante est bloquée par un fichier robots.txt. Informations supplémentaires
et là en cliquant j'arrive sur la page "Accès du robot".

Dois-je en tenir compte ?
 

jeanluc

WRInaute accro
"Une page importante est bloquée par un fichier robots.txt." ne me semble pas être un message d'erreur, mais plutôt un avertissement que ton robots.txt bloque l'accès à certaines pages,... mais c'est pour cela que tu l'utilises.

Je ne sais pas pourquoi Google met ce message en évidence en rouge. Peut-être pour culpabiliser celui qui ose lui interdire le passage... :wink:

Jean-Luc
 

Taranis

WRInaute occasionnel
jeanluc a dit:
Je ne sais pas pourquoi Google met ce message en évidence en rouge. Peut-être pour culpabiliser celui qui ose lui interdire le passage... :wink:

Jean-Luc

Hihi :) C'est comme partout: la peur, l'intimidation, sous couvert de conseils provenant de gens vus comme sérieux ou en position dominante, ça marche ;).
Google n'est qu'un utilisateur du web, mais beaucoup pensent qu'il est le web. Grosse erreur !

Le fichier robots.txt répond à des standards élaborés par des personnes bien plus recommandables que les technico-commerciaux de Google.
Cependant, chacun a la liberté de faire ce qu'il veut ! Et c'est heureux !
 

LionelWRI

WRInaute discret
Finalement :

Code:
User-agent: *
Disallow: /erreur404.html
Disallow: /travaux.html
Disallow: /sousdossier/soussousdossier/

Sitemap: http:/monsite.free.fr/sitemap.xml
est accepté par Google :), plus de message d'erreur ! :D

En fait il faut être patient, y croire et attendre…

Encore merci à tous ceux qui m'ont apporté leurs conseils :wink:
 

Discussions similaires

Haut