Comment empecher google d'indexer "une suite d'URL".

Nouveau WRInaute
Bonjour,
je souhaiterai optimiser mon site et empêcher google d'indexer "une suite d'URL" pour deux raisons.

  1. D'une part par ce qu'il n'y a pas de raison particulière a ce que certaines pages soit indexer
  2. Et d'autres part parfois des pages inutiles se trouve avec des liens important (sous le nom de mon site web, dans le moteur de recherche) comme si il s'agissait de structure importante du site et je voudrait stopper ça ...
webmasters_47334_sitelinks.png
Je travail comme il me la été conseillé ici sur le "maillage" interne de mon site pour mieux pousser les grand axes mais j'ai aussi besoin de comprendre comment empêcher google de s'intéresser a des zones du site qui n’ont pas besoin d'être indexées.

Je prend un exemple :

un site web : https://www.DOMAINE.com
a une partie Blog : https://www.DOMAINE.com/blog
une section articles : https://www.DOMAINE.com/blog/articles
mais aussi une section de rédacteurs d'articles : https://www.DOMAINE.com/blog/redacteurs

chaque rédacteurs auraient une page dédié de profil du type :

https://www.DOMAINE.com/blog/redacteurs/Boris
https://www.DOMAINE.com/blog/redacteurs/Clement
https://www.DOMAINE.com/blog/redacteurs/Sonia

On peut imaginer que la page des rédacteurs auraient aussi des liens pointant vers d'autres éléments :

https://www.DOMAINE.com/blog/redacteurs/Boris/parcoursDuRedacteur
https://www.DOMAINE.com/blog/redacteurs/Boris/biographieDuRedacteur
https://www.DOMAINE.com/blog/redacteurs/Boris/pointDuRedacteur
etc...

toutes ces pages ne sont pas forcément liée à un menu sur le site mais font partie du maillage interne et sont intégrer par le cms et les composants ...

comment indiquer a Google qu'on ne veut pas voir indexé toutes les pages /pointDuRedacteur
sachant qu'il en existe autant qu'il y'a de rédacteurs...

dans le même état d'esprit est ce qu'il est possible de dire index

https://www.DOMAINE.com/blog/redacteurs/Boris
mais pas
https://www.DOMAINE.com/blog/redacteurs/Clement


merci pour votre aide
 
WRInaute accro
avec robots.txt on indique qu'il ne faut pas crawler ces url

Pour ne pas que les pages soient indexées il faut utiliser noindex dans les pages (ou via .htaccess).

Si on interdit le crawl google ne pourra jamais savoir que la page est noindex et elle restera dans l'index.

De plus, pour interdire un répertoire dans sa globalité il aurait préférable d'avoir une structure de type
/blog/redacteurs/pointDuRedacteur/nomdurédacteur
 
Nouveau WRInaute
Merci,

est ce que la règle va ce propager aussi a tout ce qui suit l'url ex:

/blog/redacteurs/boris/pointDuRedacteur/historique
/blog/redacteurs/boris/pointDuRedacteur/détails
/blog/redacteurs/boris/pointDuRedacteur/jeNeSaisPlusQuoiInventerDePlus
 
Nouveau WRInaute
Si on interdit le crawl google ne pourra jamais savoir que la page est noindex et elle restera dans l'index.

A oui ok donc pas conseillé du tout de bloquer comme ça ...

De plus, pour interdire un répertoire dans sa globalité il aurait préférable d'avoir une structure de type
/blog/redacteurs/pointDuRedacteur/nomdurédacteur


La malheureusement j'utilise un CMS et chaque composants a ça manière de faire ce qui est parfois très frustrant...

Quel est la procédure avec .htaccess pour empêcher l'indexation ?
 
WRInaute impliqué
Code:
RewriteCond %{REQUEST_URI} ^/blog/redacteurs/boris/pointDuRedacteur/.*$
RewriteRule . - [E=headernoindex]
Header set X-Robots-Tag "noindex" env=headernoindex
 
WRInaute accro
Autre méthode :
Code:
### Interdire le référencement du fichier robots.txt & sitemap.xml
<filesMatch "robots\.txt$">
  Header set X-Robots-Tag "noindex"
</filesMatch>
<filesMatch "sitemap\.xml$">
  Header set X-Robots-Tag "noindex, follow"
</filesMatch>

Faire la même chose pour les autres url
 
WRInaute accro
Si disallow pas d'indexation, ce qui lui évite de bidouiller son wordpress ou autre, chose où il n'est à l'évidence pas à l'aise.

Si disallow, pas de crawl, donc pas d'indexation si la page n'a jamais été crawlée au paravent. Mais si elle a déjà été crawlée il ne peut pas la crawler à nouveau donc elle reste indexée
 
Nouveau WRInaute
c'est le cas justement les pages sont déja indexé, donc je préfère utiliser une méthode avec .htacces par l'url de la page est a placer ou dans ce script ?
Code:
<filesMatch "robots\.txt$">
Header set X-Robots-Tag "noindex"
</filesMatch>
<filesMatch "sitemap\.xml$">
Header set X-Robots-Tag "noindex, follow"
</filesMatch>
 
WRInaute impliqué
Si disallow, pas de crawl, donc pas d'indexation si la page n'a jamais été crawlée au paravent. Mais si elle a déjà été crawlée il ne peut pas la crawler à nouveau donc elle reste indexée

"chaque rédacteurs auraient une page dédié de profil du type"

L'emploi du conditionnel m'a induit en erreur. Je pensais que c'était un projet en réflexion.
 
Nouveau WRInaute
Bonjour à tous,

J'ai une problématique assez similaire avec des urls javascriptées qui se terminent par un #. Ce sont des urls qui permettent de partager des articles.

J'ai donc pour chaque article exemple.com/nom-article une url de partage crawlable exemple/nom-article# accessible en code 200.

J'ai canonisé exemple/nom-article# en mettant exemple.com/nom-article en balise canonique. Toutefois, j'aurais préféré en plus "interdire l'accès" directement depuis le fichier robots.txt pour qu'elles ne soient pas crawlées.

J'ai tenté d'ajouter un Disallow: /*#* mais en testant cela bloque l'accès à tout le site et pas que les urls avec # dans l'outil de test du robots.txt https://www.google.com/webmasters/tools/robots-testing-tool

Y t'il un caractère à ajouter pour que seuls les urls avec le # à la fin soient prise en compte?
Avez-vous déjà essayé de bloquer des urls avec un # via le robots.txt?
Comment avez-vous fait?

L'autre solution que je vois serait de mettre en place une obfuscation sur ces liens mais ça demanderait un peu plus de temps à mettre en place.

Merci d'avance.
 
Olivier Duffez (admin)
Membre du personnel
ajouter # à la fin de l'URL, sans rien derrière, ça n'a aucun impact. Il ne faut pas mettre de canonique et encore moins bloquer le crawl.
 
Discussions similaires
Haut