X-Robots-Tag pour désindexer des paramètres

Peroliv · 10 Juillet 2014

Bonjour,

Je gère un site e-commerce, qui duplique les pages de catégories avec des URL du type /robes-femmes.html?limit=12

C'est évidemment le ?limit=12 que je veux désindexer, et toutes les pages susceptibles de contenir des paramètres.
Vu qu'on ne peut pas mettre une balise meta robots, je vais passer par le X-Robots-Tag au niveau du HTTP.

Quelles seraient les instructions à renseigner dans le .htaccess ?

Un truc dans ce genre, ou il y a plus simple ?

Code:

      if (strpos($_SERVER['REQUEST_URI'], '?'))
      {
?><meta name="robots" content="noindex"/>
<?php
      }

loubet · 10 Juillet 2014

une canonical url est tout à fait la solution à un tel problème.

Peroliv · 11 Juillet 2014

loubet a dit:
une canonical url est tout à fait la solution à un tel problème.

Le contenu n'est justement pas identique, vu que les paramètres changent l'affichage, voire le choix des produits.

WebRankInfo · 11 Juillet 2014

c'est le genre d'URL qu'il faut bloquer à l'indexation puis au crawl
pourquoi ne peux-tu pas ajouter une meta robots noindex ?

Peroliv · 11 Juillet 2014

WebRankInfo a dit:
pourquoi ne peux-tu pas ajouter une meta robots noindex ?

Je serais obligé de placer la meta robots sur /robes-femmes.html , vu que je ne peux pas intervenir sur /robes-femmes.html?limit=12 . Donc ça me désindexerait la page principale, pas que ses doublons...

loubet · 11 Juillet 2014

si, avec un code du genre, celui de ton premier message, qui teste la présence d'un paramètre.

nickargall · 11 Juillet 2014

Code:

<?php
if(isset($_GET['limit']) && $_GET['limit']<>"")
{
?>
<meta name="robots" content="noindex,follow"/>
<?php
}
?>

ou quelquechose comme ça.

Peroliv · 15 Juillet 2014

nickargall a dit:
ou quelquechose comme ça.

Ouaip, c'est ce que je me disais. Je peaufine et je vois ce que ça donne.

WebRankInfo · 4 Août 2014

quels sont les résultats ?

Peroliv · 4 Août 2014

WebRankInfo a dit:
quels sont les résultats ?

223 pages au 16/07
116 pages actuellement

(vérification avec site:example.com inurl:limit)

Ca fonctionne !

Assez doucement, et reste à voir l'impact sur le ref (sans doute léger). Mais la technique est bonne.

WebRankInfo · 4 Août 2014

as-tu également testé de lister ces URL dans un sitemap ? ça accélère les choses et ça t'aide à dénombrer combien il en reste d'indexées

Peroliv · 6 Août 2014

WebRankInfo a dit:
as-tu également testé de lister ces URL dans un sitemap ? ça accélère les choses et ça t'aide à dénombrer combien il en reste d'indexées

Je cherche justement un outil pour lister toutes les pages indexées avec ce paramètre.

Ou mieux, un outil qui me listerait toutes les pages avec n'importe quelle requête sur Google... Je cherche, mais si ça existe déja ça m'intéresse.
(J'ai un développeur qui a un script qui marche avec l'API Google, mais ça ne marche pas avec la commande site: )

vaporisator · 23 Septembre 2014

pourquoi ne pas avoir utilisé l'outil intégré à GWT qui permet de gérer manuellement les paramètres d'URL ?

Peroliv · 23 Septembre 2014

vaporisator a dit:
pourquoi ne pas avoir utilisé l'outil intégré à GWT qui permet de gérer manuellement les paramètres d'URL ?

Parce que l'outil bloque l'exploration des pages, et pas leur indexation... Donc comme je le comprend, c'est une sorte de robots.txt bis.
Et si je bloque l'exploration de pages déja indexées, ça me les désindexera pas.