X-Robots-Tag pour désindexer des paramètres

WRInaute discret
Bonjour,

Je gère un site e-commerce, qui duplique les pages de catégories avec des URL du type /robes-femmes.html?limit=12

C'est évidemment le ?limit=12 que je veux désindexer, et toutes les pages susceptibles de contenir des paramètres.
Vu qu'on ne peut pas mettre une balise meta robots, je vais passer par le X-Robots-Tag au niveau du HTTP.

Quelles seraient les instructions à renseigner dans le .htaccess ?

Un truc dans ce genre, ou il y a plus simple ?
Code:
      if (strpos($_SERVER['REQUEST_URI'], '?'))
      {
?><meta name="robots" content="noindex"/>
<?php
      }
 
Olivier Duffez (admin)
Membre du personnel
c'est le genre d'URL qu'il faut bloquer à l'indexation puis au crawl
pourquoi ne peux-tu pas ajouter une meta robots noindex ?
 
WRInaute discret
WebRankInfo a dit:
pourquoi ne peux-tu pas ajouter une meta robots noindex ?

Je serais obligé de placer la meta robots sur /robes-femmes.html , vu que je ne peux pas intervenir sur /robes-femmes.html?limit=12 . Donc ça me désindexerait la page principale, pas que ses doublons... :(
 
WRInaute accro
Code:
<?php
if(isset($_GET['limit']) && $_GET['limit']<>"")
{
?>
<meta name="robots" content="noindex,follow"/>
<?php
}
?>
ou quelquechose comme ça.
 
WRInaute discret
WebRankInfo a dit:
quels sont les résultats ?

223 pages au 16/07
116 pages actuellement

(vérification avec site:example.com inurl:limit)

Ca fonctionne ! :) Assez doucement, et reste à voir l'impact sur le ref (sans doute léger). Mais la technique est bonne.
 
Olivier Duffez (admin)
Membre du personnel
as-tu également testé de lister ces URL dans un sitemap ? ça accélère les choses et ça t'aide à dénombrer combien il en reste d'indexées
 
WRInaute discret
WebRankInfo a dit:
as-tu également testé de lister ces URL dans un sitemap ? ça accélère les choses et ça t'aide à dénombrer combien il en reste d'indexées
Je cherche justement un outil pour lister toutes les pages indexées avec ce paramètre.

Ou mieux, un outil qui me listerait toutes les pages avec n'importe quelle requête sur Google... Je cherche, mais si ça existe déja ça m'intéresse.
(J'ai un développeur qui a un script qui marche avec l'API Google, mais ça ne marche pas avec la commande site: )
 
WRInaute discret
vaporisator a dit:
pourquoi ne pas avoir utilisé l'outil intégré à GWT qui permet de gérer manuellement les paramètres d'URL ?

Parce que l'outil bloque l'exploration des pages, et pas leur indexation... Donc comme je le comprend, c'est une sorte de robots.txt bis.
Et si je bloque l'exploration de pages déja indexées, ça me les désindexera pas.
 
Discussions similaires
Haut