Robots.txt pour Google

daza · 21 Octobre 2015

Bonjour,

étant donné que seul Google accepte la balise Noindex dans le fichier robots.txt, je souhaite donc mettre disallow pour les autres moteurs dont Bing, Yahoo...

ça va donner :

User-agent: Googlebot
Noindex: /page1

User-agent: *
Disallow: /page1

Est-ce que Google risque de traiter le Disallow: /page1 ? Ou bien il s'en tiendra à ne traiter que ce qui concerne User-agent: Googlebot ?

Merci.

spout · 21 Octobre 2015

The "User-agent: *" means this section applies to all robots.

http://www.robotstxt.org/robotstxt.html

Furtif · 21 Octobre 2015

http://robots-txt.com/
http://robots-txt.com/ressources/robots-txt-bing/
http://robots-txt.com/ressources/robots-txt-yahoo/
http://robots-txt.com/ressources/robots-txt-baidu/
http://robots-txt.com/ressources/robots-txt-yandex/

http://robots-txt.com/ressources/

jeanluc · 21 Octobre 2015

Bonjour,

L'emploi de noindex dans robots.txt est non standard et est même déconseillé par Google.

John Mueller dit:

I'd really avoid using the noindex there.

Jean-Luc

WebRankInfo · 21 Octobre 2015

@daza : pour éviter de mélanger plusieurs notions, je te conseille de lire mon article qui parle de robots.txt, de noindex, de disallow, de meta robots...

daza · 21 Octobre 2015

Merci WRI, mais j'ai déjà lu ton article ainsi que tout ce qui se rapporte au robots.txt.
seulement un test que que j'ai fais il y a quelques mois semble montrer que GG ne tiens plus compte du User-agent: *, si il y a User-agent: Googlebot. Mais c'était peut être dans un cas précis, d'où le doute.

Pour le Noindex: dans le robots.txt, je sais qu'il est déconseillé, mais dans mon cas c'est pour désindexer des pages complètement inutiles en DC, qui sont des URL dynamiques générées par un filtre de recherche produit. Le Disallow: ne ferai qu'interdit leur crawl, alors que le but est de les crawler pour les désindexer.

spout · 21 Octobre 2015

Alors si c'est pour désindexer: meta robots.

WebRankInfo · 22 Octobre 2015

si tu as la chance d'avoir toutes les URL à désindexer dans un même répertoire, tu peux :
- interdire ce répertoire au crawl
- puis demander la désindexation du répertoire dans search console

daza · 22 Octobre 2015

Non les pages ne sont pas toutes dans le même répertoire.
C'est où la demande de désindexation de répertorie dans search console ? je ne connaissais pas cette fonction.

WebRankInfo · 22 Octobre 2015

il suffit d'indiquer une URL se terminant par un / et correspondant à un répertoire (ou à ce qui ressemble à un répertoire, en raison de la réécriture d'URL), puis de confirmer qu'on veut virer tout le répertoire