Robots.txt vs sitemap : c'est qui qui gagne ?

WRInaute accro
Bonjour


Sous ce titre pour le moins foireux, une question, qui ne se pose pas sur mes sites (car généralement je m'arrange pour que les URL du sitemap ne soient pas filtrées par le robots.txt, et vice versa) mais sur le site d'une connaissance, qui avait généré son sitemap avec un outil en ligne.

Elle se retrouve donc avec des pages qui sont en théorie filtrées par le robots.txt (interdiction à tous les robots) mais qui figurent aussi dans le sitemap.

J'aurais cru pour ma part que le robots.txt "remportait" dans ce cas le suffrage, mais ce n'est pas le cas : les pages en question ont été indexées :roll:

Au-delà de la maladresse avérée du webmaster, cela signifie finalement qu'un sitemap, pour Google en tout cas, est la "vérité absolue" concernant les pages à indexer, furent-elles interdites dans le robots.txt ! Ou alors que Google pèche par excès si j'ose dire, prenant en compte le plus grand nombre possible d'URL !

Qu'en pensez-vous ?
 
WRInaute accro
Que c'est édifiant car effectivement le robots.txt devrait l'emporter, merci pour l'info en tout cas.
Tu peux nous donner l'URL du site et du sitemap ?
@+
 
WRInaute passionné
perso je ne fais pas confiance dans le robots.txt
je gère les interdictions dans mon .htaccess avec une redirection vers la page d'accueil ou vers une page d'erreur 404.

Par définition il ne faut jamais (JAMAIS JAMAIS) faire confiance aux parties tierces (en l'occurrence les robots), ils sont supposé respecter des normes ... mais rien ne les empêche de passer outre.

le pire que j'ai vu, ce sont des gens qui interdisent le référencement de certaines pages avec robots.txt pour mieux "sécuriser" leurs sites ... sauf que par la même occasion ils donnent les chemins des dossiers sensibles de leurs sites. n'oubliez pas que le robots.txt est consultable par n'importe qui !
 
WRInaute occasionnel
Bah moi je te dis le contraire :s

Petite surprise ce matin, j'ai eu des erreurs de sitemap dans mon interface google outils pour les webmaster qui sont dues au robots.txt

Je suis vite allé corrigé ça ^^' forcément faut pas dire dans le sitemap à Google de look une page qu'on restreint :D

:roll:

générateur de sitemap à la noix :D je regarderais mieux la prochaine fois ^^

Donc je sais pas trop :s
 
WRInaute passionné
non mais ce que je veux dire, c'est que le robots.txt n'interdit pas l'accès à une page, il dit juste au robot "s'il te plais va pas voir cette page" ... un spambot commencera par cette page bien évidement .

d'où l'intérêt de limiter l'accès via .htaccess au moins on est sure
 
WRInaute passionné
ouais et puis apres y'a aussi toujours les XXX extensions FF qu'on installe , les toolbars, les scripts de stats... tout ce petit mondequi de toute maniere ammene les bots ou autres a connaitre les différentes URL d'un site propriétaire ...
 
WRInaute passionné
exemple concret vu sur le site web .

voici ce qu'on lit entre autres dans le fichier robots.txt
Code:
User-agent: *
Crawl-delay: 10
# Directories
Disallow: /include/
Disallow: /sql_scripts/
Disallow: /users/
...

aucun des ces dossiers n'est protégé par htaccess, ni meme par une page d'index vide.
le dossier sql_scripts contient des fichiers .sql définissant dans les moindres details la structure de la base de données.
le dossier include contient des fichiers php avec une extension .inc donc le code est visible aussi via le navigateur ... bref tout pour pirater le site en deux minutes ...

c'est de ce genre d'erreur que je parle ;)


(bien entendu le webmaster a été prévenu et a mis en place les protections nécessaires)
 
WRInaute accro
Up !

Cas concret : une boutique en ligne, -http://www.mastermateriel.com

Il y a un grand nombre de pages "cart.php?id=..." (avec n° de token ce qui est illogique d'ailleurs) présentes dans l'index Google, alors que :
* le robots.txt en interdit l'accès aux robots
* les pages ne figurent pas dans le sitemap (encore heureux !)
* elles sont systématiquement en "noindex,follow" au niveau de la balise META robots
* les liens y menant sont en "nofollow"

Je sais plus quoi faire :mrgreen:

Bon, à contrario elles ne ressortent jamais dans les SERP et les GWT me les donnent comme "pages inaccessibles bloquées par le robots.txt". Mais quand je fais une recherche sur "site:www.mastermateriel.com cart" et bien elles ressortent.

Normal, doc ?
 
WRInaute impliqué
cedric_g a dit:
Bonjour


Sous ce titre pour le moins foireux, une question, qui ne se pose pas sur mes sites (car généralement je m'arrange pour que les URL du sitemap ne soient pas filtrées par le robots.txt, et vice versa) mais sur le site d'une connaissance, qui avait généré son sitemap avec un outil en ligne.

Elle se retrouve donc avec des pages qui sont en théorie filtrées par le robots.txt (interdiction à tous les robots) mais qui figurent aussi dans le sitemap.

J'aurais cru pour ma part que le robots.txt "remportait" dans ce cas le suffrage, mais ce n'est pas le cas : les pages en question ont été indexées :roll:

Au-delà de la maladresse avérée du webmaster, cela signifie finalement qu'un sitemap, pour Google en tout cas, est la "vérité absolue" concernant les pages à indexer, furent-elles interdites dans le robots.txt ! Ou alors que Google pèche par excès si j'ose dire, prenant en compte le plus grand nombre possible d'URL !

Qu'en pensez-vous ?

En fait si on lit le A propos du Robot.txt chez GG tools

Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. Cela signifie que l'URL de la page et éventuellement d'autres informations accessibles au public, notamment le texte ancré des liens qui pointent vers le site ou le titre créé par l'Open Directory Project,(http://www.dmoz.org), peuvent apparaître dans les résultats de recherche Google. Toutefois, le contenu de vos pages ne sera ni exploré, ni indexé, ni affiché.

Donc niveau indexation par le robot ça ne bloque pas forcément URL et de surcroit il génère un sitemap pour l'indexer.

De là, je ne vois pas d'incohérence ?
 
WRInaute accro
c'est bizarre, car pour moi, j'ai des avertissements au niveau de GWT quand j'ai des liens dans le sitemap qui sont bloqués par robots.txt
 
WRInaute accro
cedric_g a dit:
Il y a un grand nombre de pages "cart.php?id=..." (avec n° de token ce qui est illogique d'ailleurs) présentes dans l'index Google, alors que :
* le robots.txt en interdit l'accès aux robots
Le robots.txt dont tu parles est foireux. Il ne peut y avoir de ligne vide entre la directive "User-agent" et les directives "Disallow". Cette erreur explique que les robots visitent toutes les URL.

D'après mon expérience, quand un webmaster écrit "Google ne respecte pas mon robots.txt", cela veut dire "mon robots.txt n'est pas correct". :wink:

Jean-Luc
 
WRInaute accro
Bon ben je viens d'apprendre quelque chose :mrgreen:

(ps : ce robots.txt est celui d'origine du CMS...)


EDIT : ta ta ta, le robots.txt fonctionne, dixit les GWT ! M'étonnait aussi cette histoire de ligne vide... Mais bon, par mesure de précaution...
 
WRInaute accro
cedric_g a dit:
EDIT : ta ta ta, le robots.txt fonctionne, dixit les GWT ! M'étonnait aussi cette histoire de ligne vide... Mais bon, par mesure de précaution...
Beaucoup d'utilisateurs pensent que l'outil GWT est conforme au standard, mais ce n'est pas le cas.

Je t'ai indiqué ce que disait le standard robots.txt. C'est vrai que l'outil des GWT est parfois plus tolérant. Ce n'est pas une référence valable, si tu veux que ton robots.txt soit compris par les autres robots.

Jean-Luc
 
Discussions similaires
Haut