X-Robots-Tag pour désindexer des paramètres

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Peroliv, 10 Juillet 2014.

  1. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Bonjour,

    Je gère un site e-commerce, qui duplique les pages de catégories avec des URL du type /robes-femmes.html?limit=12

    C'est évidemment le ?limit=12 que je veux désindexer, et toutes les pages susceptibles de contenir des paramètres.
    Vu qu'on ne peut pas mettre une balise meta robots, je vais passer par le X-Robots-Tag au niveau du HTTP.

    Quelles seraient les instructions à renseigner dans le .htaccess ?

    Un truc dans ce genre, ou il y a plus simple ?
    Code:
          if (strpos($_SERVER['REQUEST_URI'], '?'))
          {
    ?><meta name="robots" content="noindex"/>
    <?php
          }
     
  2. loubet
    loubet WRInaute impliqué
    Inscrit:
    19 Février 2003
    Messages:
    792
    J'aime reçus:
    0
    une canonical url est tout à fait la solution à un tel problème.
     
  3. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Le contenu n'est justement pas identique, vu que les paramètres changent l'affichage, voire le choix des produits.
     
  4. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 657
    J'aime reçus:
    433
    c'est le genre d'URL qu'il faut bloquer à l'indexation puis au crawl
    pourquoi ne peux-tu pas ajouter une meta robots noindex ?
     
  5. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Je serais obligé de placer la meta robots sur /robes-femmes.html , vu que je ne peux pas intervenir sur /robes-femmes.html?limit=12 . Donc ça me désindexerait la page principale, pas que ses doublons... :(
     
  6. loubet
    loubet WRInaute impliqué
    Inscrit:
    19 Février 2003
    Messages:
    792
    J'aime reçus:
    0
    si, avec un code du genre, celui de ton premier message, qui teste la présence d'un paramètre.
     
  7. nickargall
    nickargall WRInaute accro
    Inscrit:
    13 Juin 2005
    Messages:
    6 661
    J'aime reçus:
    4
    Code:
    <?php
    if(isset($_GET['limit']) && $_GET['limit']<>"")
    {
    ?>
    <meta name="robots" content="noindex,follow"/>
    <?php
    }
    ?>
    ou quelquechose comme ça.
     
  8. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Ouaip, c'est ce que je me disais. Je peaufine et je vois ce que ça donne.
     
  9. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 657
    J'aime reçus:
    433
    quels sont les résultats ?
     
  10. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    223 pages au 16/07
    116 pages actuellement

    (vérification avec site:example.com inurl:limit)

    Ca fonctionne ! :) Assez doucement, et reste à voir l'impact sur le ref (sans doute léger). Mais la technique est bonne.
     
  11. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 657
    J'aime reçus:
    433
    as-tu également testé de lister ces URL dans un sitemap ? ça accélère les choses et ça t'aide à dénombrer combien il en reste d'indexées
     
  12. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Je cherche justement un outil pour lister toutes les pages indexées avec ce paramètre.

    Ou mieux, un outil qui me listerait toutes les pages avec n'importe quelle requête sur Google... Je cherche, mais si ça existe déja ça m'intéresse.
    (J'ai un développeur qui a un script qui marche avec l'API Google, mais ça ne marche pas avec la commande site: )
     
  13. vaporisator
    vaporisator Nouveau WRInaute
    Inscrit:
    18 Mai 2011
    Messages:
    43
    J'aime reçus:
    3
    pourquoi ne pas avoir utilisé l'outil intégré à GWT qui permet de gérer manuellement les paramètres d'URL ?
     
  14. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Parce que l'outil bloque l'exploration des pages, et pas leur indexation... Donc comme je le comprend, c'est une sorte de robots.txt bis.
    Et si je bloque l'exploration de pages déja indexées, ça me les désindexera pas.
     
Chargement...
Similar Threads - Robots Tag désindexer Forum Date
x-robots-tag noindex et code http 410 Crawl et indexation Google, sitemaps 22 Juin 2018
Pourquoi mes tags (restreint par robots.txt) sont ils référencés par Google? Débuter en référencement 22 Novembre 2010
Disallow tag dans robots.txt Crawl et indexation Google, sitemaps 26 Octobre 2010
lien variable à bloquer sur robots Développement d'un site Web ou d'une appli mobile 3 Mai 2020
Urls orphelines crawlées par Google + Robots.txt ? Crawl et indexation Google, sitemaps 3 Avril 2020
Robots.txt du site Kayak Débuter en référencement 11 Mars 2020
Search Console Indexée malgré le blocage dans robots.txt Crawl et indexation Google, sitemaps 26 Février 2020
Search Console Prestashop | Robot.txt bloque des URL mais Outil de test du fichier robots.txt l'Authorise... Crawl et indexation Google, sitemaps 21 Novembre 2019
Search Console Images bloquées ... malgré absence de robots.txt Crawl et indexation Google, sitemaps 31 Octobre 2019
Aide sur le format de mon fichier robots.txt Crawl et indexation Google, sitemaps 25 Octobre 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice