Comment empêcher le crawl sur les pages "filter" et "order"

carineb · 20 Janvier 2017

Bonjour,

Pour un site de 160 pages je découvre grâce à un crawler qu'il y a plus de 1000 url. La plupart des url "excédentaires" sont des url qui correspondent à des résultats de recherche de produit sur le site (moteur de recherche interne) ou tri des produits par des filtres et aussi par ordre de prix.

Bien entendu je ne veux pas que les robots passent du temps sur ces pages mais je ne sais pas comment faire.
Quelle est la meilleure solution ?

Merci pour votre aide.

UsagiYojimbo · 21 Janvier 2017

Pour les critères de filtrage, la canonical. Pour le résultats de recherche, le noindex.

carineb · 21 Janvier 2017

UsagiYojimbo a dit:
Pour les critères de filtrage, la canonical. Pour le résultats de recherche, le noindex.

Bonjour et merci pour la réponse mais je ne vois pas comment faire concrètement.

J'avais fait quelques recherches avant de poster mon message ici et j'avais bien vu la possibilité de mettre une balise canonical pour les filtres mais les urls que j'ai sont des urls dynamiques qui changent à chaque filtre fait par l'internaute.
Si je ne me trompe pas, la balise canonical se met dans le code html de la page secondaire (qui est la page de résultats après les filtres). Ces pages de résultats n'existent pas en tant que fichier html, donc je ne vois pas comment et où mettre la balise canonical. Comment faire ? Et où mettre cette balise ?

Et pour les résultats de recherche, les pages générés ne correspondent pas à un fichier html donc je je vois pas comment je peux mettre cette balise dans le code.

Comment dois-je faire ?

spout · 21 Janvier 2017

Les pages sont surement bien générées avec un script côté serveur.
Le canonical peux être mis dans le code HTML de page filtrée / triée tel quel.
Le noindex:

PHP:

<span class="syntaxdefault"><?php&nbsp;</span><span class="syntaxkeyword">if(</span><span class="syntaxdefault">array_key_exists</span><span class="syntaxkeyword">(</span><span class="syntaxstring">'filter'</span><span class="syntaxkeyword">,&nbsp;</span><span class="syntaxdefault">$_GET</span><span class="syntaxkeyword">)&nbsp;||&nbsp;</span><span class="syntaxdefault">array_key_exists</span><span class="syntaxkeyword">(</span><span class="syntaxstring">'order'</span><span class="syntaxkeyword">,&nbsp;</span><span class="syntaxdefault">$_GET</span><span class="syntaxkeyword">)):&nbsp;</span><span class="syntaxdefault">?><br /></span><meta&nbsp;robots="..."><br /><span class="syntaxdefault"><?php&nbsp;</span><span class="syntaxkeyword">endif;&nbsp;</span><span class="syntaxdefault">?></span>

WebRankInfo · 21 Janvier 2017

UsagiYojimbo a dit:
Pour les critères de filtrage, la canonical. Pour le résultats de recherche, le noindex.

pour empêcher le CRAWL, il vaut mieux utiliser le fichier robots.txt
pour gérer l'indexation ou la non indexation des pages crawlées, il vaut mieux utiliser la meta robots noindex (et dans certains cas la canonique)

je recommande vivement de revoir mes 3 webinars gratuits (replay) sur crawl et indexation