Robots.txt qui ne fonctionne pas bien

webmaster87 · 30 Septembre 2009

Bonjour,

Je bloque souvent des répertoires de mon site avec le fichier robots.txt.

Je bloque généralement les liens d'affiliation comme cela a l'aide de fichier de redirection PHP.

Bref, il ne devrait pas etre indéxés pourtant lorsque j'utilise la commande site:www.nomdedomaine.com ils apparaissent...

Il faut dire qu'ils sont liés sur toutes les pages de mon site ...

Je remarque que Google regarde de plus en plus les dossiers et fichiers qu'il ne devrait pas...Par exemple dans le GWT, je vois souvent que google compte en liens internes ces pages php de redirection ... alors que je les bloque.

Bref tout cela n'est pas un gros problème pour moi, sauf que j'aime pas trop que google indexe des fichiers de redirection.

PS : pardon j'aurais du placer ce sujet dans "indexation".

jcaron · 1 Octobre 2009

Tu as vérifié que ton robots.txt est bien formaté et bien interprété par Google?

Note que Google va dans certains cas avoir dans son index les pages vers lesquelles il a des liens, mais il n'aura pas le contenu de la page (parce qu'il ne l'a pas visitée). La page apparaît alors juste avec son URL et rien d'autre (pas de titre, pas de texte...). Dans ce cas la page n'a effectivement pas été visitée, et elle a peu de chances de "sortir" dans les résultats vu qu'il a excessivement peu d'informations sur elle (juste un backlink).

Si la page est présente dans l'index avec titre, extrait du contenu, etc, ou que tu constates que Google visite la page dans tes logs, c'est que ton robots.txt a un problème. Ce serait plus facile si tu nous donnais l'adresse du site bien sûr.

Jacques.

mahdivitche · 1 Octobre 2009

Bonjours,

aussi peut être que le robots visite les pages avant que tu mettre le fichier robots.txt

et dans ce cas tu doit demander de supprimer toutes le contenu de répertoire a partir de Outils webmaster tolls :wink:

webmaster87 · 1 Octobre 2009

Ok, google ne me présente que l'URL sans Titre ni Description donc c'est bon signe je pense.

Yes éventuellement je peux demander de les faire supprimer via GWT mais si Google ne visite pas ces pages ce n'est pas un problème.

jcaron · 1 Octobre 2009

Tu peux aussi mettre un rel="noindex" dans les liens qui pointents vers ces pages, comme ça il ne les mettra même pas dans l'index normalement.

Jacques.

webmaster87 · 1 Octobre 2009

rel="nofollow" tu veux dire non ? je vais pas qu'on pouvait mettre rel="noindex" dans un lien

mahdivitche · 1 Octobre 2009

webmaster87 a dit:
rel="nofollow" tu veux dire non ? je vais pas qu'on pouvait mettre rel="noindex" dans un lien

oui tu peut utilisé
<meta name="ROBOTS" content="noindex" /> : pour désactiver l'indexation des pages par google :mrgreen:

ou <a rel="noflow" href="lien"> pour dire a robot de ni pas suivi le lien :wink:

alors pour rel="noindex" :

Rel="noIndex"

Ce terme signifie au moteur de recherche de ne pas Indexer le contenu de la page se trouvant derrière le lien proposé. La page suivante ne sera donc pas référencer. Cependant, les moteurs de recherche pourront suivre les liens se trouvant sur cette nouvelle page, pour pouvoir référencer toutes les pages suivantes.

***http://www.mesinsectes.com/index.php?post/2009/01/23/Attribut-de-r%C3%A9f%C3%A9rencement

jcaron · 1 Octobre 2009

Le meta noindex (qui est dans la page) implique que celle-ci puisse être lue par le robot (donc pas exclue par robots.txt).

Dans un lien, rel="nofollow" signifie suivant les moteurs soit qu'il ne doit pas le suivre du tout, soit qu'il peut le suivre, mais de ne pas "faire passer" le PR ou autre marque de confiance (c'est prévu à la base pour éviter le spam des commentaires, forums, réseaux sociaux et autres sites "2.0" à grands coups d'URL vers des sites en manque de PR).

rel="noindex" signifie que la destination du lien ne doit pas être indexée.

Tu peux combiner les deux: rel="noindex nofollow"

Jacques.

jeanluc · 1 Octobre 2009

J'ai l'impression qu'on s'égare avec ce noindex.

1. Mettre

Code:

<meta name="ROBOTS" content="noindex" />

dans une page qui est interdite par robots.txt ne sert à rien puisque les robots ne visitent pas la page.

2. rel="noindex" : jamais vu, jamais entendu parlé de cet attribut.

Ce terme signifie au moteur de recherche de ne pas Indexer le contenu de la page se trouvant derrière le lien proposé.

Donc, je mets ça sur des liens que je fais vers les sites de mes concurrents et ils se font virer de l'index Google ? :mrgreen:

Jean-Luc

mahdivitche · 1 Octobre 2009

jeanluc a dit:
J'ai l'impression qu'on s'égare avec ce noindex.

1. Mettre

Code:

<meta name="ROBOTS" content="noindex" />

dans une page qui est interdite par robots.txt ne sert à rien puisque les robots ne visitent pas la page.
Jean-Luc

mais si il y'a une erreur dans le fichier robots.txt dans ce balise sera remplacer l'absence de robots.txt :mrgreen:

jeanluc a dit:
J'ai l'impression qu'on s'égare avec ce noindex.

2. rel="noindex" : jamais vu, jamais entendu parlé de cet attribut.

Ce terme signifie au moteur de recherche de ne pas Indexer le contenu de la page se trouvant derrière le lien proposé.

Cliquez pour agrandir...

Donc, je mets ça sur des liens que je fais vers les sites de mes concurrents et ils se font virer de l'index Google ? :mrgreen:
Jean-Luc

le contenu de la page se trouvant derrière le lien proposé : donc il parle de les des pages internes de sites et pas les pages des autres sites :mrgreen: ( ci pas moi j'ai écrire ça :wink: )

webmaster87 · 1 Octobre 2009

Bon, la je ne sais pas qui croire ...

Est il possible de mettre un <a rel="nofollow noindex" ? cela m'etonnerait beaucoup !?

Je connais noindex dans la balise meta robot mais pas comme attribut d'un lien.

jcaron · 1 Octobre 2009

jeanluc a dit:
Donc, je mets ça sur des liens que je fais vers les sites de mes concurrents et ils se font virer de l'index Google ? :mrgreen:

Non, ça veut juste dire qu'elle ne sera pas indexée en suivant ce lien-là. Si un autre lien ailleurs pointe vers la même page, mais n'a pas de noindex, la page sera indexée quand même bien entendu.

Ceci dit je ne sais pas si je ne suis pas en plein délire là, après vérification je suis assez loin d'être certain que c'est effectivement supporté par Google cette histoire, j'ai l'impression de m'être salement emmêlé les pinceaux sur ce coup-là

Donc rel="nofollow" sur les liens (sémantique exacte variable d'un moteur à l'autre et sujette à débat), et meta noindex dans la page, à condition qu'elle ne soit pas bloquée par un robots.txt.

Jacques.

Leonick · 1 Octobre 2009

sinon, tu sais que sur GWT tu as un outil qui te permet de vérifier si une url est bien bloquée par ton robots.txt, tu peux même faire avec différents user agent de google (image, web, ...)

zeldaion · 20 Octobre 2011

Lu, debat très interessant j'ai apris beaucoup en 5 Minutes Merci.