Fichier robots.txt VS balise meta robots

Spriter · 24 Août 2010

Salut,

J'ai une question concernant la priorité vis à vis des moteurs de recherche entre le fichier robots.txt et les meta robots attachées aux pages du site. Je m'explique, j'ai une boutique en ligne qui fait partie d'un site principal: le site principal en HTML contient à la racine de son hébergement un fichier robots.txt et un sitemap.xml pour organiser le référencement des pages. La boutique en ligne est comme un second site en PHP cette fois dans un répertoire du site principal.

Je ne souhaite pas que soit référencée cette boutique car elle s'adresse uniquement aux membres professionnels de l'association a qui appartient le site. Alors mes questions sont :

1) - si j'exclue le répertoire du site principal ou est installée la boutique du fichier robots.txt et du sitemap.xml à la racine de l'hébergement, cela suffit il ou dois-je rajouter dans le répertoire de ma boutique un nouveau fichier robots.txt (on peut accéder à la boutique sans passer par le site principal pour les adhérents qui l'ont dans leurs favoris, et s'il y a une google barre sur le navigateur j'ai lu que ca pouvait faciliter le référencement).

2) - d'autre part une meta robots sur chaque page de la boutique affiche un index et follow, si un robots.txt spécifiant le contraire est dans répertoire d'installation de la boutique a t'il priorité ou dois-je corriger les balises des pages ?

Merci beaucoup pour votre aide !

taeky · 24 Août 2010

Salut,

Normalement en rajoutant a ton robots.txt la ligne suivante

Code:

Disallow: /répertoire-de-la-boutique/

ça devrait suffir

++

jeanluc · 24 Août 2010

Les directives de robots.txt disent aux robots de ne pas lire une page ou un groupe de pages. Comme le robot qui respecte ces directives ne lit pas les pages concernées, il ne sait pas si elles contiennent une META avec (no)index, (no)follow. Cette balise META est donc sans effet sur les pages exclues par robots.txt.

Jean-Luc

Leonick · 24 Août 2010

sauf que, malheureusement, tous les (bons) bots ne suivent pas toujours cette directive. Comme je l'avais évoqué dans ce thread https://www.webrankinfo.com/forum/google-aime-spam-les-pages-pleines-vent-t ... 32455.html gg a incorporé des pages d'exalead qui étaient bloquées par un robots.txt

jeanluc · 25 Août 2010

Leonick a dit:
gg a incorporé des pages d'exalead qui étaient bloquées par un robots.txt

"Ne pas visiter une page" ne veut pas nécessairement dire "ne pas l'indexer". Les pages non visitées par le robot ne sont habituellement pas indexées, mais il y a quelques exceptions, comme celle que tu cites. Les pages indexées qui n'ont pas été visitées apparaissent d'ailleurs sans lien vers le contenu en cache Google (normal puisqu'il n'y en a pas). C'est un phénomène asssez rare et ce n'est généralement pas utile de s'en préoccuper.

Jean-Luc

Spriter · 26 Août 2010

Bon ok merci, si je rajoute la ligne d'exclusion du dossier d'installation de ma boutique à la racine de mon site, soit un niveau de répertoire plus haut, cela va t'il suffire pour les visiteurs qui accedront directement à la boutique via un favoris et avec la fameuse Google bar dont on m'a dit qu'elle pouvait activer un référencement de pages inconnues jusqu'alors par Google sachant que le fichier robot sera un répertoire plus haut ?

Merci en tous les cas pour votre aide !

jeanluc · 26 Août 2010

Si ces pages sont "secrètes" et si tu veux qu'elles soient uniquement vues pas les personnes autorisées, il n'y a pas 36 solutions: login avec nom d'utilisateur et mot de passe. Toutes les autres solutions n'empêcheront pas d'avoir un lien vers ces pages quelque part sur un moteur de recherche ou sur un autre site.

Jean-Luc

Spriter · 28 Août 2010

Salut,

Bon merci pour vos réponses, et non ces pages ne sont pas secrètes puisque clairement accessible depuis le site mais disons que ca n'intéresse que les adhérents et surtout c'est une partie en CMS du site avec des URL vraiment pas optimisées et qui font du duplicate content malgré les optimisations d'usage (c'est connu sur ce CMS) alors plutôt que de bousiller mon référencement pour une partie du site qui n'intéresse pas grand monde, je voulais pas que les moteurs aillent dessus voila.

Mais c'est bon entre temps j'ai pu mettre en cohérences les méta sur noindex,nofollow

!

tutela · 24 Octobre 2010

Bonjour,

Est-ce que le fichier robots.txt a une grosse influence sur le référencement.

Le fait de laisser celui de base, ou d'ajouter des paramètres aide, ou ne sert à rien comme quasiment les balises méta.

Merci

Fred
http://www.melocafe.fr