Robots.txt et liens follow

Camille_413 · 16 Juin 2014

Bonjour,

Je me pose actuellement une question sur le fonctionnement de google et de l'impact potentiel sur le SEO.

Voilà ma question :
Si j'indique dans le fichier robots.txt à google ne pas aller crawler ma page http://www.example.fr/femme/maillot-de-bain/rougeX251454548787777788.html > c'est une page que je ne souhaite pas que google indexe.
Le fait d'inscrire cette page dans fichier robots.txt indique à google de ne pas aller crawler cette page.
Mais est ce que si sur mon site je fais un lien en follow depuis ma page : http://www.example.fr/femme/maillot-de-bain/ vers http://www.example.fr/femme/maillot-de-bain/rougeX251454548787777788.html est ce que google va aller consulter ma page ? (même si il est indiqué dans le fichier robots.txt que cela n'a pas d'intérêt)

J'ai potentiellement 150 000 pages de mon site concernées.
D'avance merci pour vos retours.

Camille

loubet · 16 Juin 2014

non, il ne va pas aller consulter la page.

Camille_413 · 16 Juin 2014

Merci pour ta réponse loubet.

Si je résume : que mon lien soit en follow ou en nofollow cela n'a pas d'impacts Google ne va pas aller consulter la page (puisque elle est présente dans le robots.txt ) C'est bien cela ?

Cependant ça m'inquiète car j'ai pu observer que sur googlewebmastertools le nombre d'URL bloquées augmentent très très fortement depuis le 09 mars ? est ce normal ?
est ce que ca peut avoir un impact sur le nombre de pages indexées ?

Merci d'avance pour vos retours,

jeanluc · 16 Juin 2014

Camille_413 a dit:
Si je résume : que mon lien soit en follow ou en nofollow cela n'a pas d'impacts Google ne va pas aller consulter la page (puisque elle est présente dans le robots.txt ) C'est bien cela ?

Oui, il est certain que les robots de Google n'iront pas voir les pages que tu interdis dans robots.txt.

Pour le reste, on n'est plus dans les certitudes techniques, mais dans le référencement. A mon humble avis, interdire la visite de liens internes (robots.txt) ou le suivi de liens internes (nofollow), c'est une sorte de gaspillage de la force des liens disponible. Parfois on ne peut pas faire autrement, mais, en soi, ça n'aide pas le référencement.

Jean-Luc

WebRankInfo · 17 Juin 2014

Camille_413 a dit:
Que mon lien soit en follow ou en nofollow cela n'a pas d'impacts Google ne va pas aller consulter la page (puisque elle est présente dans le robots.txt ) C'est bien cela ?

oui et tu peux le vérifier en utilisant la fonctionnalité dans GWT (Exploration > URL bloquées) pour tester une URL

Camille_413 a dit:
Cependant ça m'inquiète car j'ai pu observer que sur googlewebmastertools le nombre d'URL bloquées augmentent très très fortement depuis le 09 mars ? est ce normal ?

si tu fais des liens follow vers des nouvelles URL, Google vérifie s'il a le droit de les crawler. Comme ce n'est pas le cas, le nb d'URL bloquées au crawl augmente. Comme le dit Jean-Luc, tu devrais te demander s'il n'y a pas une meilleure solution sur ton site.

Camille_413 a dit:
est ce que ca peut avoir un impact sur le nombre de pages indexées ?

en fait, il manque des infos dans ton post. Tu ne parles que de blocage de crawl, mais si les pages à bloquer ont déjà été indexées, tu ne vas pas réussir à les faire désindexer comme ça. Donc ma question est "ces pages sont-elles actuellement indexées ?"

Camille_413 · 17 Juin 2014

En fait il y a 2 choses :

-j'ai des pages (résultats de recherche) qui sont renseignées dans le fichier robots.txt et qui ont meta noindex, nofollow. Si je fais un lien en follow vers cette page google ne vas pas aller la consulter puisqu'elle est bloquée dans robots.txt. C'est bien ça ?

-j'ai un d'autres pages qui ne sont pas dans le fichier robots.txt mais qui ont la meta noindex, nofollow. Si je fais un lien en follow vers cette page google est ce que Google va aller consulter la page ?

Ensuite j'observe une hausse des pages bloquées : en mars : 100 000 pages bloquées en juin 18 millions de pages bloquées : est ce normal ???

En parallèle j'observe sur les 15 derniers jours une baisse du nombre de pages indexées (-30% de pages indexées). Est ce qu'il peut y avoir un lien entre les 2 ?

Merci d'avance pour vos retours,

usulfr · 17 Juin 2014

Camille_413 a dit:
-j'ai des pages (résultats de recherche) qui sont renseignées dans le fichier robots.txt et qui ont meta noindex, nofollow. Si je fais un lien en follow vers cette page google ne vas pas aller la consulter puisqu'elle est bloquée dans robots.txt. C'est bien ça ?

Oui, pas de crawl vers ces pages (robots.txt l'interdit)

Camille_413 a dit:
-j'ai un d'autres pages qui ne sont pas dans le fichier robots.txt mais qui ont la meta noindex, nofollow. Si je fais un lien en follow vers cette page google est ce que Google va aller consulter la page ?

Oui, il va aller la consulter mais il ne la mettra pas dans son index (noindex) et les liens sortants de cette page n'auront pas de poids en référencement (nofollow).

Camille_413 a dit:
Ensuite j'observe une hausse des pages bloquées : en mars : 100 000 pages bloquées en juin 18 millions de pages bloquées : est ce normal ???

Ce doit être des pages dupliquées par les paramètres d'url (même url, seuls les paramètres changent). C'est bien que ces pages soient bloquées, elles poseraient des pb sinon.

Camille_413 a dit:
En parallèle j'observe sur les 15 derniers jours une baisse du nombre de pages indexées (-30% de pages indexées). Est ce qu'il peut y avoir un lien entre les 2 ?

Possible, difficile à dire, mais c'est probable.

Camille_413 · 17 Juin 2014

Un grand merci pour vos retours, j'y vois plus clair.

Juste un dernier cas de figure :
j'ai une page en noindex, follow (qui n'est pas présente dans le fichier robots.txt) > si je fais un liens en follow vers cette page alors google va aller la consulter et les liens présents sur cette page sont importants pour le référencement puisque dans la meta robots on a follow ? C'est bien ça ?

WebRankInfo · 18 Juin 2014

Camille_413 a dit:
Ensuite j'observe une hausse des pages bloquées : en mars : 100 000 pages bloquées en juin 18 millions de pages bloquées : est ce normal ???

18M de pages bloquées, je me demande si c'est vraiment normal...

Camille_413 a dit:
j'ai une page en noindex, follow (qui n'est pas présente dans le fichier robots.txt) > si je fais un liens en follow vers cette page alors google va aller la consulter et les liens présents sur cette page sont importants pour le référencement puisque dans la meta robots on a follow ? C'est bien ça ?

en effet. tu te rends compte peut-être que le nofollow dans la balise meta robots n'a a priori aucun intérêt

indigene · 18 Juin 2014

Camille_413 a dit:
Un grand merci pour vos retours, j'y vois plus clair.

Je n'en suis pas certain.

Comme on te l'a déjà dit plus haut, si une url est présente dans robots.txt, google ne va pas aller la crawler et il ne verra pas que cette page contient un NOINDEX ni que cette page contient un FOLLOW ou un NOFOLLOW.

Si cette page a déjà été indexée par google il ne va pas la désindexer car il ne peut plus la crawler et donc il ne peut pas savoir que la page est maintenant en noindex.

Ce n'est pas naturel d'avoir des urls dans robots.txt sauf cas vraiment exceptionnel (tu ne veux absolument pas qu'on trouve ces urls car elles sont privées ou n'ont aucun rapport avec le thème du site)

Pour ne pas qu'une page soit indexée il faut lui mettre une balise noindex et il ne faut pas que cette page soit dans robots.txt pour que google sache qu'elle est en noindex