Comment empecher google d'indexer "une suite d'URL".

le_borgne · 8 Mars 2020

Bonjour,
je souhaiterai optimiser mon site et empêcher google d'indexer "une suite d'URL" pour deux raisons.

D'une part par ce qu'il n'y a pas de raison particulière a ce que certaines pages soit indexer
Et d'autres part parfois des pages inutiles se trouve avec des liens important (sous le nom de mon site web, dans le moteur de recherche) comme si il s'agissait de structure importante du site et je voudrait stopper ça ...

Je travail comme il me la été conseillé ici sur le "maillage" interne de mon site pour mieux pousser les grand axes mais j'ai aussi besoin de comprendre comment empêcher google de s'intéresser a des zones du site qui n’ont pas besoin d'être indexées.

Je prend un exemple :

un site web : https://www.DOMAINE.com
a une partie Blog : https://www.DOMAINE.com/blog
une section articles : https://www.DOMAINE.com/blog/articles
mais aussi une section de rédacteurs d'articles : https://www.DOMAINE.com/blog/redacteurs

chaque rédacteurs auraient une page dédié de profil du type :

https://www.DOMAINE.com/blog/redacteurs/Boris
https://www.DOMAINE.com/blog/redacteurs/Clement
https://www.DOMAINE.com/blog/redacteurs/Sonia

On peut imaginer que la page des rédacteurs auraient aussi des liens pointant vers d'autres éléments :

https://www.DOMAINE.com/blog/redacteurs/Boris/parcoursDuRedacteur
https://www.DOMAINE.com/blog/redacteurs/Boris/biographieDuRedacteur
https://www.DOMAINE.com/blog/redacteurs/Boris/pointDuRedacteur
etc...

toutes ces pages ne sont pas forcément liée à un menu sur le site mais font partie du maillage interne et sont intégrer par le cms et les composants ...

comment indiquer a Google qu'on ne veut pas voir indexé toutes les pages /pointDuRedacteur
sachant qu'il en existe autant qu'il y'a de rédacteurs...

dans le même état d'esprit est ce qu'il est possible de dire index

https://www.DOMAINE.com/blog/redacteurs/Boris
mais pas
https://www.DOMAINE.com/blog/redacteurs/Clement

merci pour votre aide

theunholy · 8 Mars 2020

comment indiquer a Google qu'on ne veut pas voir indexé toutes les pages /pointDuRedacteur

robots.txt

User-agent: *
Disallow: /blog/redacteurs/boris/pointDuRedacteur

indigene · 8 Mars 2020

avec robots.txt on indique qu'il ne faut pas crawler ces url

Pour ne pas que les pages soient indexées il faut utiliser noindex dans les pages (ou via .htaccess).

Si on interdit le crawl google ne pourra jamais savoir que la page est noindex et elle restera dans l'index.

De plus, pour interdire un répertoire dans sa globalité il aurait préférable d'avoir une structure de type
/blog/redacteurs/pointDuRedacteur/nomdurédacteur

le_borgne · 8 Mars 2020

Merci,

est ce que la règle va ce propager aussi a tout ce qui suit l'url ex:

/blog/redacteurs/boris/pointDuRedacteur/historique
/blog/redacteurs/boris/pointDuRedacteur/détails
/blog/redacteurs/boris/pointDuRedacteur/jeNeSaisPlusQuoiInventerDePlus

theunholy · 8 Mars 2020

indigene a dit:
avec robots.txt on indique qu'il ne faut pas crawler ces url

Si disallow pas d'indexation, ce qui lui évite de bidouiller son wordpress ou autre, chose où il n'est à l'évidence pas à l'aise.

theunholy · 8 Mars 2020

le_borgne a dit:
Merci,

est ce que la règle va ce propager aussi a tout ce qui suit l'url ex:

/blog/redacteurs/boris/pointDuRedacteur/historique
/blog/redacteurs/boris/pointDuRedacteur/détails
/blog/redacteurs/boris/pointDuRedacteur/jeNeSaisPlusQuoiInventerDePlus

Oui.

le_borgne · 8 Mars 2020

indigene a dit:
Si on interdit le crawl google ne pourra jamais savoir que la page est noindex et elle restera dans l'index.

A oui ok donc pas conseillé du tout de bloquer comme ça ...

indigene a dit:
De plus, pour interdire un répertoire dans sa globalité il aurait préférable d'avoir une structure de type
/blog/redacteurs/pointDuRedacteur/nomdurédacteur

La malheureusement j'utilise un CMS et chaque composants a ça manière de faire ce qui est parfois très frustrant...

Quel est la procédure avec .htaccess pour empêcher l'indexation ?

theunholy · 8 Mars 2020

Code:

RewriteCond %{REQUEST_URI} ^/blog/redacteurs/boris/pointDuRedacteur/.*$
RewriteRule . - [E=headernoindex]
Header set X-Robots-Tag "noindex" env=headernoindex

indigene · 8 Mars 2020

Autre méthode :

Code:

### Interdire le référencement du fichier robots.txt & sitemap.xml
<filesMatch "robots\.txt$">
  Header set X-Robots-Tag "noindex"
</filesMatch>
<filesMatch "sitemap\.xml$">
  Header set X-Robots-Tag "noindex, follow"
</filesMatch>

Faire la même chose pour les autres url

indigene · 8 Mars 2020

theunholy a dit:
Si disallow pas d'indexation, ce qui lui évite de bidouiller son wordpress ou autre, chose où il n'est à l'évidence pas à l'aise.

Si disallow, pas de crawl, donc pas d'indexation si la page n'a jamais été crawlée au paravent. Mais si elle a déjà été crawlée il ne peut pas la crawler à nouveau donc elle reste indexée

le_borgne · 8 Mars 2020

c'est le cas justement les pages sont déja indexé, donc je préfère utiliser une méthode avec .htacces par l'url de la page est a placer ou dans ce script ?

Code:

<filesMatch "robots\.txt$">
Header set X-Robots-Tag "noindex"
</filesMatch>
<filesMatch "sitemap\.xml$">
Header set X-Robots-Tag "noindex, follow"
</filesMatch>

theunholy · 8 Mars 2020

indigene a dit:
Si disallow, pas de crawl, donc pas d'indexation si la page n'a jamais été crawlée au paravent. Mais si elle a déjà été crawlée il ne peut pas la crawler à nouveau donc elle reste indexée

"chaque rédacteurs auraient une page dédié de profil du type"

L'emploi du conditionnel m'a induit en erreur. Je pensais que c'était un projet en réflexion.

Stom · 19 Mars 2020

Bonjour à tous,

J'ai une problématique assez similaire avec des urls javascriptées qui se terminent par un #. Ce sont des urls qui permettent de partager des articles.

J'ai donc pour chaque article exemple.com/nom-article une url de partage crawlable exemple/nom-article# accessible en code 200.

J'ai canonisé exemple/nom-article# en mettant exemple.com/nom-article en balise canonique. Toutefois, j'aurais préféré en plus "interdire l'accès" directement depuis le fichier robots.txt pour qu'elles ne soient pas crawlées.

J'ai tenté d'ajouter un Disallow: /*#* mais en testant cela bloque l'accès à tout le site et pas que les urls avec # dans l'outil de test du robots.txt https://www.google.com/webmasters/tools/robots-testing-tool

Y t'il un caractère à ajouter pour que seuls les urls avec le # à la fin soient prise en compte?
Avez-vous déjà essayé de bloquer des urls avec un # via le robots.txt?
Comment avez-vous fait?

L'autre solution que je vois serait de mettre en place une obfuscation sur ces liens mais ça demanderait un peu plus de temps à mettre en place.

Merci d'avance.

WebRankInfo · 19 Mars 2020

ajouter # à la fin de l'URL, sans rien derrière, ça n'a aucun impact. Il ne faut pas mettre de canonique et encore moins bloquer le crawl.