Comment empecher google d'indexer "une suite d'URL".

Discussion dans 'Débuter en référencement' créé par le_borgne, 8 Mars 2020.

  1. le_borgne
    le_borgne Nouveau WRInaute
    Inscrit:
    6 Février 2019
    Messages:
    8
    J'aime reçus:
    0
    Bonjour,
    je souhaiterai optimiser mon site et empêcher google d'indexer "une suite d'URL" pour deux raisons.

    1. D'une part par ce qu'il n'y a pas de raison particulière a ce que certaines pages soit indexer
    2. Et d'autres part parfois des pages inutiles se trouve avec des liens important (sous le nom de mon site web, dans le moteur de recherche) comme si il s'agissait de structure importante du site et je voudrait stopper ça ...
    webmasters_47334_sitelinks.png
    Je travail comme il me la été conseillé ici sur le "maillage" interne de mon site pour mieux pousser les grand axes mais j'ai aussi besoin de comprendre comment empêcher google de s'intéresser a des zones du site qui n’ont pas besoin d'être indexées.

    Je prend un exemple :

    un site web : https://www.DOMAINE.com
    a une partie Blog : https://www.DOMAINE.com/blog
    une section articles : https://www.DOMAINE.com/blog/articles
    mais aussi une section de rédacteurs d'articles : https://www.DOMAINE.com/blog/redacteurs

    chaque rédacteurs auraient une page dédié de profil du type :

    https://www.DOMAINE.com/blog/redacteurs/Boris
    https://www.DOMAINE.com/blog/redacteurs/Clement
    https://www.DOMAINE.com/blog/redacteurs/Sonia

    On peut imaginer que la page des rédacteurs auraient aussi des liens pointant vers d'autres éléments :

    https://www.DOMAINE.com/blog/redacteurs/Boris/parcoursDuRedacteur
    https://www.DOMAINE.com/blog/redacteurs/Boris/biographieDuRedacteur
    https://www.DOMAINE.com/blog/redacteurs/Boris/pointDuRedacteur
    etc...

    toutes ces pages ne sont pas forcément liée à un menu sur le site mais font partie du maillage interne et sont intégrer par le cms et les composants ...

    comment indiquer a Google qu'on ne veut pas voir indexé toutes les pages /pointDuRedacteur
    sachant qu'il en existe autant qu'il y'a de rédacteurs...

    dans le même état d'esprit est ce qu'il est possible de dire index

    https://www.DOMAINE.com/blog/redacteurs/Boris
    mais pas
    https://www.DOMAINE.com/blog/redacteurs/Clement


    merci pour votre aide
     
  2. theunholy
    theunholy WRInaute occasionnel
    Inscrit:
    6 Août 2013
    Messages:
    281
    J'aime reçus:
    40
    robots.txt

    User-agent: *
    Disallow: /blog/redacteurs/boris/pointDuRedacteur
     
  3. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 158
    J'aime reçus:
    173
    avec robots.txt on indique qu'il ne faut pas crawler ces url

    Pour ne pas que les pages soient indexées il faut utiliser noindex dans les pages (ou via .htaccess).

    Si on interdit le crawl google ne pourra jamais savoir que la page est noindex et elle restera dans l'index.

    De plus, pour interdire un répertoire dans sa globalité il aurait préférable d'avoir une structure de type
    /blog/redacteurs/pointDuRedacteur/nomdurédacteur
     
    le_borgne apprécie ceci.
  4. le_borgne
    le_borgne Nouveau WRInaute
    Inscrit:
    6 Février 2019
    Messages:
    8
    J'aime reçus:
    0
    Merci,

    est ce que la règle va ce propager aussi a tout ce qui suit l'url ex:

    /blog/redacteurs/boris/pointDuRedacteur/historique
    /blog/redacteurs/boris/pointDuRedacteur/détails
    /blog/redacteurs/boris/pointDuRedacteur/jeNeSaisPlusQuoiInventerDePlus
     
  5. theunholy
    theunholy WRInaute occasionnel
    Inscrit:
    6 Août 2013
    Messages:
    281
    J'aime reçus:
    40
    Si disallow pas d'indexation, ce qui lui évite de bidouiller son wordpress ou autre, chose où il n'est à l'évidence pas à l'aise.
     
  6. theunholy
    theunholy WRInaute occasionnel
    Inscrit:
    6 Août 2013
    Messages:
    281
    J'aime reçus:
    40
    Oui.
     
  7. le_borgne
    le_borgne Nouveau WRInaute
    Inscrit:
    6 Février 2019
    Messages:
    8
    J'aime reçus:
    0
    A oui ok donc pas conseillé du tout de bloquer comme ça ...



    La malheureusement j'utilise un CMS et chaque composants a ça manière de faire ce qui est parfois très frustrant...

    Quel est la procédure avec .htaccess pour empêcher l'indexation ?
     
  8. theunholy
    theunholy WRInaute occasionnel
    Inscrit:
    6 Août 2013
    Messages:
    281
    J'aime reçus:
    40
    Code:
    RewriteCond %{REQUEST_URI} ^/blog/redacteurs/boris/pointDuRedacteur/.*$
    RewriteRule . - [E=headernoindex]
    Header set X-Robots-Tag "noindex" env=headernoindex
     
  9. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 158
    J'aime reçus:
    173
    Autre méthode :
    Code:
    ### Interdire le référencement du fichier robots.txt & sitemap.xml
    <filesMatch "robots\.txt$">
      Header set X-Robots-Tag "noindex"
    </filesMatch>
    <filesMatch "sitemap\.xml$">
      Header set X-Robots-Tag "noindex, follow"
    </filesMatch>
    Faire la même chose pour les autres url
     
  10. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 158
    J'aime reçus:
    173
    Si disallow, pas de crawl, donc pas d'indexation si la page n'a jamais été crawlée au paravent. Mais si elle a déjà été crawlée il ne peut pas la crawler à nouveau donc elle reste indexée
     
  11. le_borgne
    le_borgne Nouveau WRInaute
    Inscrit:
    6 Février 2019
    Messages:
    8
    J'aime reçus:
    0
    c'est le cas justement les pages sont déja indexé, donc je préfère utiliser une méthode avec .htacces par l'url de la page est a placer ou dans ce script ?
    Code:
    <filesMatch "robots\.txt$">
    Header set X-Robots-Tag "noindex"
    </filesMatch>
    <filesMatch "sitemap\.xml$">
    Header set X-Robots-Tag "noindex, follow"
    </filesMatch>
     
  12. theunholy
    theunholy WRInaute occasionnel
    Inscrit:
    6 Août 2013
    Messages:
    281
    J'aime reçus:
    40
    "chaque rédacteurs auraient une page dédié de profil du type"

    L'emploi du conditionnel m'a induit en erreur. Je pensais que c'était un projet en réflexion.
     
  13. Stom
    Stom Nouveau WRInaute
    Inscrit:
    12 Novembre 2018
    Messages:
    7
    J'aime reçus:
    0
    Bonjour à tous,

    J'ai une problématique assez similaire avec des urls javascriptées qui se terminent par un #. Ce sont des urls qui permettent de partager des articles.

    J'ai donc pour chaque article exemple.com/nom-article une url de partage crawlable exemple/nom-article# accessible en code 200.

    J'ai canonisé exemple/nom-article# en mettant exemple.com/nom-article en balise canonique. Toutefois, j'aurais préféré en plus "interdire l'accès" directement depuis le fichier robots.txt pour qu'elles ne soient pas crawlées.

    J'ai tenté d'ajouter un Disallow: /*#* mais en testant cela bloque l'accès à tout le site et pas que les urls avec # dans l'outil de test du robots.txt https://www.google.com/webmasters/tools/robots-testing-tool

    Y t'il un caractère à ajouter pour que seuls les urls avec le # à la fin soient prise en compte?
    Avez-vous déjà essayé de bloquer des urls avec un # via le robots.txt?
    Comment avez-vous fait?

    L'autre solution que je vois serait de mettre en place une obfuscation sur ces liens mais ça demanderait un peu plus de temps à mettre en place.

    Merci d'avance.
     
  14. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 691
    J'aime reçus:
    439
    ajouter # à la fin de l'URL, sans rien derrière, ça n'a aucun impact. Il ne faut pas mettre de canonique et encore moins bloquer le crawl.
     
Chargement...
Similar Threads - empecher google indexer Forum Date
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
Empêcher Google d'indexer certaines phrases ? Crawl et indexation Google, sitemaps 23 Octobre 2010
Patron de Qwant : "Google essaye d'empêcher ..." Autres moteurs de recherche connus 1 Novembre 2018
Empêcher google d'utiliser mon formulaire de filtre d'articles ? Développement d'un site Web ou d'une appli mobile 11 Mars 2016
Google Images peut-il reconnaître une photo et empêcher sa diffusion dans les résultats? YouTube, Google Images et Google Maps 20 Juin 2011
Empecher GoogleBot de suivre une redirection Débuter en référencement 20 Juillet 2010
PHP empêcher form onsubmit si formulaire invalide Développement d'un site Web ou d'une appli mobile 29 Juin 2020
Empêcher l'indexation d'images dont le nom contient une chaîne donnée Crawl et indexation Google, sitemaps 27 Juin 2020
désindexer et/ou empêcher crawl ? Crawl et indexation Google, sitemaps 4 Janvier 2019
Empêcher les majuscules dans les URL Débuter en référencement 27 Avril 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice