Robots.txt vs sitemap : c'est qui qui gagne ?

cedric_g · 14 Avril 2009

Bonjour

Sous ce titre pour le moins foireux, une question, qui ne se pose pas sur mes sites (car généralement je m'arrange pour que les URL du sitemap ne soient pas filtrées par le robots.txt, et vice versa) mais sur le site d'une connaissance, qui avait généré son sitemap avec un outil en ligne.

Elle se retrouve donc avec des pages qui sont en théorie filtrées par le robots.txt (interdiction à tous les robots) mais qui figurent aussi dans le sitemap.

J'aurais cru pour ma part que le robots.txt "remportait" dans ce cas le suffrage, mais ce n'est pas le cas : les pages en question ont été indexées :roll:

Au-delà de la maladresse avérée du webmaster, cela signifie finalement qu'un sitemap, pour Google en tout cas, est la "vérité absolue" concernant les pages à indexer, furent-elles interdites dans le robots.txt ! Ou alors que Google pèche par excès si j'ose dire, prenant en compte le plus grand nombre possible d'URL !

Qu'en pensez-vous ?

serval2a · 14 Avril 2009

Que c'est édifiant car effectivement le robots.txt devrait l'emporter, merci pour l'info en tout cas.
Tu peux nous donner l'URL du site et du sitemap ?
@+

aladdin · 14 Avril 2009

perso je ne fais pas confiance dans le robots.txt
je gère les interdictions dans mon .htaccess avec une redirection vers la page d'accueil ou vers une page d'erreur 404.

Par définition il ne faut jamais (JAMAIS JAMAIS) faire confiance aux parties tierces (en l'occurrence les robots), ils sont supposé respecter des normes ... mais rien ne les empêche de passer outre.

le pire que j'ai vu, ce sont des gens qui interdisent le référencement de certaines pages avec robots.txt pour mieux "sécuriser" leurs sites ... sauf que par la même occasion ils donnent les chemins des dossiers sensibles de leurs sites. n'oubliez pas que le robots.txt est consultable par n'importe qui !

Raspailloux · 14 Avril 2009

Bah moi je te dis le contraire :s

Petite surprise ce matin, j'ai eu des erreurs de sitemap dans mon interface google outils pour les webmaster qui sont dues au robots.txt

Je suis vite allé corrigé ça ^^' forcément faut pas dire dans le sitemap à Google de look une page qu'on restreint

:roll:

générateur de sitemap à la noix

je regarderais mieux la prochaine fois ^^

Donc je sais pas trop :s

aladdin · 14 Avril 2009

non mais ce que je veux dire, c'est que le robots.txt n'interdit pas l'accès à une page, il dit juste au robot "s'il te plais va pas voir cette page" ... un spambot commencera par cette page bien évidement .

d'où l'intérêt de limiter l'accès via .htaccess au moins on est sure

raljx · 14 Avril 2009

ouais et puis apres y'a aussi toujours les XXX extensions FF qu'on installe , les toolbars, les scripts de stats... tout ce petit mondequi de toute maniere ammene les bots ou autres a connaitre les différentes URL d'un site propriétaire ...

aladdin · 14 Avril 2009

exemple concret vu sur le site web .

voici ce qu'on lit entre autres dans le fichier robots.txt

Code:

User-agent: *
Crawl-delay: 10
# Directories
Disallow: /include/
Disallow: /sql_scripts/
Disallow: /users/
...

aucun des ces dossiers n'est protégé par htaccess, ni meme par une page d'index vide.
le dossier sql_scripts contient des fichiers .sql définissant dans les moindres details la structure de la base de données.
le dossier include contient des fichiers php avec une extension .inc donc le code est visible aussi via le navigateur ... bref tout pour pirater le site en deux minutes ...

c'est de ce genre d'erreur que je parle

(bien entendu le webmaster a été prévenu et a mis en place les protections nécessaires)

Raspailloux · 14 Avril 2009

sert à quedal robots.txt alors? :|

aurelien59 · 14 Avril 2009

Moi mon robots.txt ne sert juste à indiquer... le sitemap !

Code:

Sitemap: http://www.siteweb.com/sitemap.xml

cedric_g · 23 Avril 2009

Up !

Cas concret : une boutique en ligne, -http://www.mastermateriel.com

Il y a un grand nombre de pages "cart.php?id=..." (avec n° de token ce qui est illogique d'ailleurs) présentes dans l'index Google, alors que :
* le robots.txt en interdit l'accès aux robots
* les pages ne figurent pas dans le sitemap (encore heureux !)
* elles sont systématiquement en "noindex,follow" au niveau de la balise META robots
* les liens y menant sont en "nofollow"

Je sais plus quoi faire :mrgreen:

Bon, à contrario elles ne ressortent jamais dans les SERP et les GWT me les donnent comme "pages inaccessibles bloquées par le robots.txt". Mais quand je fais une recherche sur "site:www.mastermateriel.com cart" et bien elles ressortent.

Normal, doc ?

Monty973 · 24 Avril 2009

cedric_g a dit:
* les liens y menant sont en "nofollow"

Ca n'a jamais empêché une URL d'être crawlée.

https://www.google.com/search?q=site:mastermateriel.com+cart&hl=fr&lr=& ... 0&filter=0

https://www.google.com/support/webmasters/bin/answer.py?answer=35667

Elles ont été recrawlées tes pages depuis qu'il y a une balise NOINDEX ?

cedric_g · 24 Avril 2009

Je sais bien (pour le nofollow) mais bon.

Faut que j'épluche mes logs (j'aime pas ça...)

GUITEL · 24 Avril 2009

cedric_g a dit:
Bonjour

Sous ce titre pour le moins foireux, une question, qui ne se pose pas sur mes sites (car généralement je m'arrange pour que les URL du sitemap ne soient pas filtrées par le robots.txt, et vice versa) mais sur le site d'une connaissance, qui avait généré son sitemap avec un outil en ligne.

Elle se retrouve donc avec des pages qui sont en théorie filtrées par le robots.txt (interdiction à tous les robots) mais qui figurent aussi dans le sitemap.

J'aurais cru pour ma part que le robots.txt "remportait" dans ce cas le suffrage, mais ce n'est pas le cas : les pages en question ont été indexées :roll:

Au-delà de la maladresse avérée du webmaster, cela signifie finalement qu'un sitemap, pour Google en tout cas, est la "vérité absolue" concernant les pages à indexer, furent-elles interdites dans le robots.txt ! Ou alors que Google pèche par excès si j'ose dire, prenant en compte le plus grand nombre possible d'URL !

Qu'en pensez-vous ?

En fait si on lit le A propos du Robot.txt chez GG tools

Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. Cela signifie que l'URL de la page et éventuellement d'autres informations accessibles au public, notamment le texte ancré des liens qui pointent vers le site ou le titre créé par l'Open Directory Project,(http://www.dmoz.org), peuvent apparaître dans les résultats de recherche Google. Toutefois, le contenu de vos pages ne sera ni exploré, ni indexé, ni affiché.

Donc niveau indexation par le robot ça ne bloque pas forcément URL et de surcroit il génère un sitemap pour l'indexer.

De là, je ne vois pas d'incohérence ?

Leonick · 30 Avril 2009

c'est bizarre, car pour moi, j'ai des avertissements au niveau de GWT quand j'ai des liens dans le sitemap qui sont bloqués par robots.txt

Raspailloux · 30 Avril 2009

Leonick a dit:
c'est bizarre, car pour moi, j'ai des avertissements au niveau de GWT quand j'ai des liens dans le sitemap qui sont bloqués par robots.txt

idem :|

jeanluc · 30 Avril 2009

cedric_g a dit:
Il y a un grand nombre de pages "cart.php?id=..." (avec n° de token ce qui est illogique d'ailleurs) présentes dans l'index Google, alors que :
* le robots.txt en interdit l'accès aux robots

Le robots.txt dont tu parles est foireux. Il ne peut y avoir de ligne vide entre la directive "User-agent" et les directives "Disallow". Cette erreur explique que les robots visitent toutes les URL.

D'après mon expérience, quand un webmaster écrit "Google ne respecte pas mon robots.txt", cela veut dire "mon robots.txt n'est pas correct". :wink:

Jean-Luc

Leonick · 30 Avril 2009

vérifie dans le GWT, il y a un outil permettant de vérifier des url par rapport au robots.txt

cedric_g · 1 Mai 2009

Bon ben je viens d'apprendre quelque chose :mrgreen:

(ps : ce robots.txt est celui d'origine du CMS...)

EDIT : ta ta ta, le robots.txt fonctionne, dixit les GWT ! M'étonnait aussi cette histoire de ligne vide... Mais bon, par mesure de précaution...

jeanluc · 1 Mai 2009

cedric_g a dit:
EDIT : ta ta ta, le robots.txt fonctionne, dixit les GWT ! M'étonnait aussi cette histoire de ligne vide... Mais bon, par mesure de précaution...

Beaucoup d'utilisateurs pensent que l'outil GWT est conforme au standard, mais ce n'est pas le cas.

Je t'ai indiqué ce que disait le standard robots.txt. C'est vrai que l'outil des GWT est parfois plus tolérant. Ce n'est pas une référence valable, si tu veux que ton robots.txt soit compris par les autres robots.

Jean-Luc

cedric_g · 2 Mai 2009

J'ai effectivement modifié mes fichiers... Merci en tout cas pour l'info :wink: