Fichier robots.txt : erreurs d'analyse dans GWT

Discussion dans 'Crawl et indexation Google, sitemaps' créé par LionelWRI, 19 Janvier 2012.

  1. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    J'ai testé mon fichier "robots.txt" généré par Google via mon compte Google à :
    Configuration du site -> Accès du robot…
    ________________________________________________________________
    Résultats de l'analyse
    Valeur Résultat

    Ligne 0 : http://monsite.free.fr/robots.txt Le fichier robots.txt n’est pas valide.

    Texte de http://monsite.free.fr/robots.txt
    User-agent: *
    Allow: /

    URL Spécifiez les URL et les user-agents à tester.
    http://monsite.free.fr/
    ________________________________________________________________

    Quelqu'un pourrait me dire pourquoi "Le fichier robots.txt n’est pas valide." ?

    Je butte certainement sur quelque chose de simple mais je connais pas très bien tout cela…

    Merci d'avance à la communauté WRI :wink:
     
  2. lunicrea
    lunicrea WRInaute occasionnel
    Inscrit:
    30 Août 2010
    Messages:
    479
    J'aime reçus:
    1
    Re: fichier robots.txt

    Salut !

    il me semble que la ligne Allow: n'est autorisée que pour un sitemap valide, exemple :
    Code:
    Allow: /sitemap.xml
    Si tu n'utilises pas de Disallow et de sitemap alors il faut juste mettre
    Code:
    User-agent: *
    Cela étant, il ne sert à rien du coup car tu ne demandes aucune restriction aux robots ...
     
  3. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    Re: fichier robots.txt

    Merci. Mais même avec :

    Code:
    Allow: /sitemap.xml
    Google m'affiche toujours : "Le fichier robots.txt n’est pas valide." :roll:
     
  4. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 882
    J'aime reçus:
    0
    Re: fichier robots.txt

    Tu as peut-être des caractères spéciaux cachés dans ton fichier. robots.txt doit être créé avec un éditeur de texte simple comme Notepad (Bloc-notes): formatage style Word ou UTF-8 interdits.

    Jean-Luc
     
  5. Taranis
    Taranis WRInaute occasionnel
    Inscrit:
    11 Août 2006
    Messages:
    302
    J'aime reçus:
    0
  6. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    Re: fichier robots.txt

    En faite, j'ai mis cela :

    User-agent: *
    Allow: /
    Disallow: / erreur404.html
    Disallow: / travaux.html

    Mais toujours pas reconnu par Google. Je suis sur Mac avec TextEdit qui enregistre en "Format texte".

    Curieux…
     
  7. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 882
    J'aime reçus:
    0
    Re: fichier robots.txt

    Essaie avec EXACTEMENT ceci :
    Code:
    User-agent: *
    Disallow: /erreur404.html
    Disallow: /travaux.html
    
    J'ai supprimé le "allow" non standard et inutile et il ne fallait pas d'espace après les /.

    Jean-Luc
     
  8. Taranis
    Taranis WRInaute occasionnel
    Inscrit:
    11 Août 2006
    Messages:
    302
    J'aime reçus:
    0
    Re: fichier robots.txt

    Et si tu vires la ligne :
    Code:
    Allow: /
    Ça donne quoi ?
     
  9. Taranis
    Taranis WRInaute occasionnel
    Inscrit:
    11 Août 2006
    Messages:
    302
    J'aime reçus:
    0
    Re: fichier robots.txt

    Ok, deuz :)
     
  10. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    Re: fichier robots.txt

    Grand merci à tous :D

    Code:
    User-agent: *
    Disallow: /erreur404.html
    Disallow: /travaux.html
    était la bonne solution.

    Maintenant, j'ai tenté :

    Code:
    User-agent: *
    Sitemap: http:/monsite.free.fr/sitemap.xml
    Disallow: /erreur404.html
    Disallow: /travaux.html
    Super !
     
  11. lunicrea
    lunicrea WRInaute occasionnel
    Inscrit:
    30 Août 2010
    Messages:
    479
    J'aime reçus:
    1
    Re: fichier robots.txt

    Hmm et ça marche cette syntaxe ?! :eek:
     
  12. Taranis
    Taranis WRInaute occasionnel
    Inscrit:
    11 Août 2006
    Messages:
    302
    J'aime reçus:
    0
    Re: fichier robots.txt

    Ben d'après ( http://www.sitemaps.org/protocol.html#submit_robots ) on dirait :)

    Mais il est peut-être temps que les robots et autres crawlers se dépatouillent eux-mêmes de ce qu'ils cherchent. Les webmasters ont bien d'autres choses à faire que de s'embêter à faire des courbettes à des entreprises multi-milliardaires ;)
     
  13. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    Re: fichier robots.txt

    En tout cas voici les résultats que me donne Google en allant à :
    Outils pour les webmasters -> Accès du robot d'exploration
    Code:
    ________________________________________________________________________________________________
    [b][size=150]Résultats de l'analyse[/size][/b]
    [b]Valeur                                                                       Résultat[/b]
    Ligne 2 : Sitemap: http://monsite.free.fr/sitemap.xml	Référence à un plan Sitemap valide détectée
    
    [b]Texte de http://monsite.free.fr/robots.txt[/b]
    User-agent: *
    Sitemap: http://monsite.free.fr/sitemap.xml
    Disallow: /erreur404.html
    Disallow: /travaux.html
    
    [b]URL[/b] Spécifiez les URL et les user-agents à tester.
    http://monsite.free.fr/
    ________________________________________________________________________________________________
    
    Ainsi j'autorise tous les robots à indexer mes pages, à consulter mon fichier "sitemap.xml" mais je ne les autorise pas à indexer les pages "erreur404.html" ni "travaux.html" (si j'ai tout bien compris). J'espère que c'est suffisant...

    Encore merci à votre aide à tous :)

    Maintenant je vais m'occuper des balises meta robots et meta sitemap. :roll:
     
  14. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 231
    J'aime reçus:
    564
    Re: fichier robots.txt

    Attention :
    - pour déclarer un sitemap dans le fichier robots.txt ce n'est pas Allow mais sitemap
    - Allow ne sert à rien il me semble, le fichier robots.txt ne sert qu'à interdire le crawl (par défaut tout le reste est autorisé)

    Autres remarques :
    - si tu n'as rien à interdire sur le site, tu peux mettre un fichier totalement vide, ça ira très bien et ça ne génèrera aucune erreur
    - parfois le fichier sitemap contient des indications que l'on ne devrait pas donner aux concurrents. Dans ce cas il ne faut pas le nommer sitemap.xml et il ne faut pas le déclarer dans le fichier robots.txt mais directement dans Google Webmaster Tools.
     
  15. NickyLarson
    NickyLarson WRInaute occasionnel
    Inscrit:
    8 Avril 2008
    Messages:
    315
    J'aime reçus:
    0
    Re: fichier robots.txt

    Du coup, pour le robots.txt de WRI, ceci n'est pas correct (même si cela n'a pas d'impact)?

    User-agent: googlebot-image
    Allow: /images/

    Un autre exemple, actuellement sur WRI le fichier est sous cette forme:
    User-agent: Xenu's Link Sleuth 1.1c
    User-agent: YRSPider
    User-agent: Zeus
    Disallow: /

    Est-ce correcte pour donner une instruction générale?
    Ou alors il faudrait faire plutôt comme ceci:

    User-agent: Xenu's Link Sleuth 1.1c
    Disallow: /

    User-agent: YRSPider
    Disallow: /

    User-agent: Zeus
    Disallow: /
     
  16. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    rien n'empêchera personne de saisir : /sitemap.xml et cela sur bon nombres de sites… sauf s'il n'y a pas de fichier sitemap.xml sur le site :wink:
     
  17. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 231
    J'aime reçus:
    564
    @NickyLarson : pour Google Images j'avais trouvé le conseil de l'autoriser explicitement pour favoriser le crawl
    pour les interdictions multiples, autant l'écrire comme je l'ai fait, c'est plus court et ça reste valide.

    oui LionelWRI, c'est pour ça que j'ai conseillé de le nommer autrement
     
  18. NickyLarson
    NickyLarson WRInaute occasionnel
    Inscrit:
    8 Avril 2008
    Messages:
    315
    J'aime reçus:
    0
    et pour la structure des bots/disallow la syntaxe est correcte telle qu'elle est dans le robots.txt WRI ou c'est mieux de mettre un disallow par bot?
     
  19. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 231
    J'aime reçus:
    564
    je t'ai déjà répondu ;-)
     
  20. NickyLarson
    NickyLarson WRInaute occasionnel
    Inscrit:
    8 Avril 2008
    Messages:
    315
    J'aime reçus:
    0
    Autant pour moi, j'avais mal lu ;)
    Merci.
     
  21. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    @ WebRankInfo

    C'est-à-dire que je peux baptiser sitemap.xml par zebullon.xml (par exemple) et le faire reconnaître ainsi par Google ?
    Le nom de "sitemap" ne serait donc qu'un nom quelconque ? :?:
     
  22. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 231
    J'aime reçus:
    564
    en effet, tu l'appelles comme tu veux (et au passage, c'est souvent inutile de s'embêter avec le format XML)
     
  23. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    Merci beaucoup ! :)
     
  24. lunicrea
    lunicrea WRInaute occasionnel
    Inscrit:
    30 Août 2010
    Messages:
    479
    J'aime reçus:
    1
    Re: fichier robots.txt

    Oui il semblerait mais d'où je tire ce paramètre Allow alors ? C'est bizarre, je l'ai pourtant pas sorti de mon chapeau, c'est pas une ancienne façon de faire ?

    Sinon, si j'avais réfléchi 5 minutes, j'aurais vu qu'en fait j'utilisais déjà le paramétrage "sitemap: http://www.example.com/sitemap.xml" dans mon robots.txt ! :roll:

    Par contre, me parait bizarre de vouloir "cacher" son sitemap des concurrents, car avec un peu de jugeotte c'est vraiment pas dur de le retrouver ;)

    Bref, je crois que j'ai besoin de vacances. :mrgreen:
     
  25. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 910
    J'aime reçus:
    75
    Rien ne t'oblige à spécifier le sitemap.xml dans le robots.txt. Dans ce cas de figure, si le nom du fichier sitemap.xml n'est pas standard, difficile de deviner comment se nomme le fichier...
     
  26. lunicrea
    lunicrea WRInaute occasionnel
    Inscrit:
    30 Août 2010
    Messages:
    479
    J'aime reçus:
    1
    Hmm pourtant, je vois un paquet de sites "honorables" le faire. Alors si ça sert à rien ou que c'est prendre des risques concurrentiels, pourquoi autant le font ? :?

    Et concernant le paramètre Allow, si on regarde de plus près dans le centre d'aide de Google, on tombe sur ce genre de phrase :
    Ou encore
    Bref, il y aurait donc une utilisation pour ce paramètre ...
     
  27. Taranis
    Taranis WRInaute occasionnel
    Inscrit:
    11 Août 2006
    Messages:
    302
    J'aime reçus:
    0
  28. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 882
    J'aime reçus:
    0
    Oui, pour les robots de Google. Ce n'est pas standard.

    Jean-Luc
     
  29. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    Je croyais en être sorti mais l'interdiction au "soussousdossier" passe par ce chemin indiqué :
    Or cela donne un message d'erreur par Google.

    Donc comment rédiger autrement cette dernière ligne ?
    (enfin, je crois que c'est cette ligne qui donne l'erreur Google)
     
  30. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 882
    J'aime reçus:
    0
    Ton extrait de robots.txt est valide, mais ce serait plus clair d'écrire :
    Code:
    User-agent: *
    Disallow: /erreur404.html
    Disallow: /travaux.html
    Disallow: /dossier/sousdossier/soussousdossier/
    
    Sitemap: http:/monsite.free.fr/sitemap.xml
    L'erreur détectée par GWT doit être ailleurs. Ce serait plus simple d'aider si tu indiquais l'erreur précise.

    Jean-Luc
     
  31. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    @ Jeau-Luc
    Hier soir (avant d'avoir lu ta réponse) j'avais supprimé cette dernière ligne et ce matin l'erreur n'était plus signalée par Google.
    Par acquis de conscience, je viens de remettre mon fichier "robots.txt" comme tu me le recommandes.
    Je vais voir si demain l'erreur revient. :roll:

    Dans "Outils pour les webmasters -> Tableau de bord", il y a toujours :
    • Erreurs d'exploration
      Accès restreint par un fichier robots.txt
    (mais cela me semble normal vu qu'en effet j'ai bloqué des pages qui se trouvent à l'intérieur du dernier "soussousdossier")

    Merci et rendez-vous demain ;)
    Bonne journée
     
  32. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    Dommage que je ne peux envoyer la copie d'écran :(

    En tout cas mon message est revenu.

    Dans "Outils pour les webmasters -> Tableau de bord", j'ai un bandeau rouge avec :
    et là en cliquant j'arrive sur la page "Accès du robot".

    Dois-je en tenir compte ?
     
  33. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 882
    J'aime reçus:
    0
    "Une page importante est bloquée par un fichier robots.txt." ne me semble pas être un message d'erreur, mais plutôt un avertissement que ton robots.txt bloque l'accès à certaines pages,... mais c'est pour cela que tu l'utilises.

    Je ne sais pas pourquoi Google met ce message en évidence en rouge. Peut-être pour culpabiliser celui qui ose lui interdire le passage... :wink:

    Jean-Luc
     
  34. Taranis
    Taranis WRInaute occasionnel
    Inscrit:
    11 Août 2006
    Messages:
    302
    J'aime reçus:
    0
    Hihi :) C'est comme partout: la peur, l'intimidation, sous couvert de conseils provenant de gens vus comme sérieux ou en position dominante, ça marche ;).
    Google n'est qu'un utilisateur du web, mais beaucoup pensent qu'il est le web. Grosse erreur !

    Le fichier robots.txt répond à des standards élaborés par des personnes bien plus recommandables que les technico-commerciaux de Google.
    Cependant, chacun a la liberté de faire ce qu'il veut ! Et c'est heureux !
     
  35. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    Donc, je laisse tel quel et je ne tiens pas compte de ce message.

    Merci à tous.
     
  36. LionelWRI
    LionelWRI WRInaute discret
    Inscrit:
    10 Janvier 2012
    Messages:
    50
    J'aime reçus:
    0
    Finalement :

    Code:
    User-agent: *
    Disallow: /erreur404.html
    Disallow: /travaux.html
    Disallow: /sousdossier/soussousdossier/
    
    Sitemap: http:/monsite.free.fr/sitemap.xml
    est accepté par Google :), plus de message d'erreur ! :D

    En fait il faut être patient, y croire et attendre…

    Encore merci à tous ceux qui m'ont apporté leurs conseils :wink:
     
  37. lunicrea
    lunicrea WRInaute occasionnel
    Inscrit:
    30 Août 2010
    Messages:
    479
    J'aime reçus:
    1
    Salut !

    Content que tu ais réussi à voir le bout du tunnel ;)

    Bonne continuation.
     
Chargement...
Similar Threads - Fichier robots erreurs Forum Date
Erreurs Fichier Robots.txt Crawl et indexation Google, sitemaps 26 Octobre 2010
Search Console Prestashop | Robot.txt bloque des URL mais Outil de test du fichier robots.txt l'Authorise... Crawl et indexation Google, sitemaps 21 Novembre 2019
Aide sur le format de mon fichier robots.txt Crawl et indexation Google, sitemaps 25 Octobre 2019
Page de test et fichier Robots.txt Crawl et indexation Google, sitemaps 9 Octobre 2019
Search Console un fichier robots.txt pour chaque protocole Débuter en référencement 15 Août 2019
Search Console bloquée par le fichier robots.txt Crawl et indexation Google, sitemaps 25 Juin 2019
Search Console Passage de HTTP à HTTPS (Fichiers ROBOTS.TXT et SITEMAP) 0 Crawl et indexation Google, sitemaps 16 Mai 2019
"Indexée malgré le blocage par le fichier robots.txt" Que faire si ce message ? Crawl et indexation Google, sitemaps 12 Février 2019
noindex fr-fr dans fichier robots.txt avec translatepress Référencement international (langues, pays) 18 Décembre 2018
Indexée malgré le blocage par le fichier robots.txt Débuter en référencement 5 Décembre 2018