Comment empêcher le crawl sur les pages "filter" et "order"

Discussion dans 'Débuter en référencement' créé par carineb, 20 Janvier 2017.

  1. carineb
    carineb Nouveau WRInaute
    Inscrit:
    20 Janvier 2017
    Messages:
    12
    J'aime reçus:
    0
    Bonjour,

    Pour un site de 160 pages je découvre grâce à un crawler qu'il y a plus de 1000 url. La plupart des url "excédentaires" sont des url qui correspondent à des résultats de recherche de produit sur le site (moteur de recherche interne) ou tri des produits par des filtres et aussi par ordre de prix.

    Bien entendu je ne veux pas que les robots passent du temps sur ces pages mais je ne sais pas comment faire.
    Quelle est la meilleure solution ?

    Merci pour votre aide.
     
  2. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    12 018
    J'aime reçus:
    133
    Pour les critères de filtrage, la canonical. Pour le résultats de recherche, le noindex.
     
  3. carineb
    carineb Nouveau WRInaute
    Inscrit:
    20 Janvier 2017
    Messages:
    12
    J'aime reçus:
    0
    Bonjour et merci pour la réponse mais je ne vois pas comment faire concrètement.

    J'avais fait quelques recherches avant de poster mon message ici et j'avais bien vu la possibilité de mettre une balise canonical pour les filtres mais les urls que j'ai sont des urls dynamiques qui changent à chaque filtre fait par l'internaute.
    Si je ne me trompe pas, la balise canonical se met dans le code html de la page secondaire (qui est la page de résultats après les filtres). Ces pages de résultats n'existent pas en tant que fichier html, donc je ne vois pas comment et où mettre la balise canonical. Comment faire ? Et où mettre cette balise ?

    Et pour les résultats de recherche, les pages générés ne correspondent pas à un fichier html donc je je vois pas comment je peux mettre cette balise dans le code.

    Comment dois-je faire ?
     
  4. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 207
    J'aime reçus:
    365
    Les pages sont surement bien générées avec un script côté serveur.
    Le canonical peux être mis dans le code HTML de page filtrée / triée tel quel.
    Le noindex:
    PHP:
    <span class="syntaxdefault"><?php&nbsp;</span><span class="syntaxkeyword">if(</span><span class="syntaxdefault">array_key_exists</span><span class="syntaxkeyword">(</span><span class="syntaxstring">'filter'</span><span class="syntaxkeyword">,&nbsp;</span><span class="syntaxdefault">$_GET</span><span class="syntaxkeyword">)&nbsp;||&nbsp;</span><span class="syntaxdefault">array_key_exists</span><span class="syntaxkeyword">(</span><span class="syntaxstring">'order'</span><span class="syntaxkeyword">,&nbsp;</span><span class="syntaxdefault">$_GET</span><span class="syntaxkeyword">)):&nbsp;</span><span class="syntaxdefault">?><br /></span><meta&nbsp;robots="..."><br /><span class="syntaxdefault"><?php&nbsp;</span><span class="syntaxkeyword">endif;&nbsp;</span><span class="syntaxdefault">?></span>
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 894
    J'aime reçus:
    845
    pour empêcher le CRAWL, il vaut mieux utiliser le fichier robots.txt
    pour gérer l'indexation ou la non indexation des pages crawlées, il vaut mieux utiliser la meta robots noindex (et dans certains cas la canonique)

    je recommande vivement de revoir mes 3 webinars gratuits (replay) sur crawl et indexation
     
Chargement...
Similar Threads - empêcher crawl filter Forum Date
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
désindexer et/ou empêcher crawl ? Crawl et indexation Google, sitemaps 4 Janvier 2019
Empecher le crawl d'un lien avec robots.txt Netlinking, backlinks, liens et redirections 2 Avril 2009
Empecher google de crawlé un sous-domaine Référencement Google 14 Février 2004
Empêcher le download mais autoriser la lecture mp3 URL Rewriting et .htaccess 17 Août 2021
WordPress Empêcher le scraping de mon site Administration d'un site Web 19 Novembre 2020
PHP empêcher form onsubmit si formulaire invalide Développement d'un site Web ou d'une appli mobile 29 Juin 2020
Comment empecher google d'indexer "une suite d'URL". Débuter en référencement 8 Mars 2020
Patron de Qwant : "Google essaye d'empêcher ..." Autres moteurs de recherche connus 1 Novembre 2018
Empêcher les majuscules dans les URL Débuter en référencement 27 Avril 2018
Empécher indexation Crawl et indexation Google, sitemaps 10 Avril 2018
Comment empêcher les gens de faire du copier coller ? Débuter en référencement 21 Janvier 2018
Empêcher des script javascript d'etre indexer Crawl et indexation Google, sitemaps 13 Mars 2017
empêcher des caractères comme /?longurlwascutoff_0&& derrière l'url d'un site URL Rewriting et .htaccess 30 Avril 2016
Empêcher l'indexation de mon fichier sitemap Débuter en référencement 29 Avril 2016
empêcher une partie du site de visualisation Développement d'un site Web ou d'une appli mobile 30 Mars 2016
Empêcher google d'utiliser mon formulaire de filtre d'articles ? Développement d'un site Web ou d'une appli mobile 11 Mars 2016
Comment empêcher une page en php d' être partagé sur facebook? Facebook 10 Septembre 2015
Empêcher l'upload de gros fichiers? Développement d'un site Web ou d'une appli mobile 27 Mai 2015
Comment empecher la repetition du nom de site dans les titles Problèmes de référencement spécifiques à vos sites 18 Mars 2015