Désindexer des pages avec paramètres

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Peroliv, 3 Avril 2014.

  1. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Bonjour,

    J'ai eu un léger problème de spider trap, c'est résolu et bloqué par le robots.txt.

    Par contre, Google m'a indexé quelques milliers de pages similaires, toutes dans ce style

    example.com/inscription_pro.html?page=%2Fragrhytt

    Dans les SERP, on a bien "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site".

    Par contre, comment est-ce que je désindexe tout dans les Webmaster Tools ? Je soumets /inscription_pro.html et il me vire toutes les variantes ?
     
  2. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 339
    J'aime reçus:
    391
    tant que tu bloques le crawl, le robots ne pourra pas voir s'il y a une balise meta robots noindex, donc les pages ne seront pas désindexées
    - ajoute une meta robots noindex pour les URL contenant le paramètre concerné
    - supprime le blocage dans le robots.txt
    - envoie un sitemap des URL à faire désindexer
    - surveille dans GWT le nb d'URL de ce sitemap encore dans l'index
    - quand tout est supprimé, remets un blocage du crawl des URL concernées

    tiens-nous au courant STP
     
  3. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Alors j'avais bien fait toute la procédure classique pour résoudre un spider trap.
    (par contre, autant pour moi, le robots.txt aurait dû l'empêcher à la base, mais ensuite on l'a bien débloqué pour que le robot Google repasse).

    Donc :
    - Spider trap sur les pages /inscription_pro.html, pourtant dans le robots.txt
    - ajout de meta robots noindex
    - retrait du blocage dans le robots.txt

    J'ai fait ça y'a presque 2 mois. Je commençais à m'inquiéter que les 14 800 pages soient toujours indexées (enfin, dans l'index secondaire des pages non pertinentes) et que leur description soit "La description...robots.txt", donc j'avais peur que soit mes balises robots n'aient pas marché, soit que le blocage dans le robots.txt soit maintenu (car juste passé en commentaire).

    En fait, Google m'a répondu directement (les braves gens) que j'avais tout fait bien, et qu'il fallait juste attendre le repassage du robot (on voit sur le graph dans les WT qu'il se presse pas).

    J'en suis donc là !

    Qu'est-ce que c'est donc cette méthode de :

    - envoie un sitemap des URL à faire désindexer
    - surveille dans GWT le nb d'URL de ce sitemap encore dans l'index
    ?
     
  4. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 339
    J'aime reçus:
    391
    le sitemaps sert à lister des URL pour que Google aille les crawler. C'est justement ce que tu veux, pour accélérer les choses, non ?
     
  5. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Je me sers surtout des sitemap pour qu'une nouvelle page soit indexée. Donc ça me perturbe de m'en servir pour en désindexer...

    Mais ça parait logique. Je crée un sitemap avec les URL à désindexer pour accélérer le crawl, le bot voit la balise noindex, et les désindexe ? :) Bien pensé.

    Est-ce que par contre, je dois y inclure toutes les variantes indexées de /inscription_pro.html?page=%2Fragrhytt ou juste la page de base ? (/inscription_pro.html)
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 339
    J'aime reçus:
    391
    faudrait savoir ! ne veux-tu pas traiter les URL avec les paramètres ?
    on ne traite pas des pages ou des scripts mais bien des URL complètes
    ;-)
     
  7. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Exact... Maintenant je veux bien une méthode pour récupérer les 14 800 URL indexées que je placerai dans le sitemap :D
     
  8. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 192
    J'aime reçus:
    1
    qui dit paramètres dit base de données, ça doit pas être la mer a boire d'en faire le tour ;-)
     
  9. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    8 921
    J'aime reçus:
    272
    foreach :mrgreen:
     
  10. colonies
    colonies WRInaute impliqué
    Inscrit:
    10 Septembre 2006
    Messages:
    524
    J'aime reçus:
    62
    Personnellement, je préfère faire les noindex en header : X-Robot-Tag: none, le plus souvent.
    Je ne sais pas si GGBot télécharge quand même la page ou pas mais la logique voudrait que non.
    https://developers.google.com/webmasters/control-crawl-index/docs/robo ... _tag?hl=fr

    J'ai eu le même problème : des centaines de milliers de pages indexées avec des paramètres non voulus. Pour que Google les vire, il a fallu plusieurs mois et ça n'est pas complètement fini.
    Au passage, ça n'a eu aucun impact positif sur le référencement. Ca fait quand même économiser des ressources serveur, forcément, c'est toujours ça...

    Personnellement j'avais de la chance, une grosse partie de ces pages avaient des paramètres qui ne devaient pas être indexés donc j'ai pu utiliser GWT pour lui indiquer directement comment traiter ces paramètres. Mais vu que le tien est "page", j'imagine qu'il est utilisé ailleurs et que ça n'est pas jouable.
     
  11. rick38
    rick38 WRInaute passionné
    Inscrit:
    23 Février 2013
    Messages:
    1 340
    J'aime reçus:
    171
    Pour désindexer toutes les URLs avec paramètres, pourquoi ne pas faire:

    Code:
    		if (strpos($_SERVER['REQUEST_URI'], '?'))
    		{
    ?><meta name="robots" content="noindex"/>
    <?php
    		}
    A n'utiliser bien sûr que si TOUTES les pages avec un ? sont à désindexer...
     
  12. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Ah... on part dans la technique, là.

    Sinon, comme prévu Google repasse sur mes pages et les désindexe en masse. Il m'en reste 800.
     
  13. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Je relance le sujet, sur un autre problème similaire :

    J'ai une page indexée plusieurs fois, selon le nombre de paramètres :

    Code:
    /bottines.html
    /bottines.html?limit=21
    /bottines.html?dir=desc&limit=30&order=position
    ...
    
    Comment est-ce que je {désindexe | bloque l'indexation de} ces pages avec paramètres ?

    J'ai encore jamais utilisé les Webmaster Tools pour ça, mais ça a l'air prévu pour : Exploration > Paramètres d'URL.
    Je suis ce tuto et ça va marcher ? :?
     
  14. loubet
    loubet WRInaute impliqué
    Inscrit:
    19 Février 2003
    Messages:
    792
    J'aime reçus:
    0
    tu peux bloquer certains paramètres et/ou mettre une canonical url
     
  15. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 339
    J'aime reçus:
    391
  16. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 192
    J'aime reçus:
    1
    /bottines.html?dir=desc&limit=30&order=position Quand je vois ça j'ai peur :D (injections SQL)

    Une meta noindex ça peut le faire si c'est des résultats de recherche, trie, ... (a na pas mettre sur la page mère)
     
  17. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Mais comment appliquer ça à une page /bottines.html?limit=21 sans baliser (et désindexer la page) /bottines.html ? :?
     
  18. loubet
    loubet WRInaute impliqué
    Inscrit:
    19 Février 2003
    Messages:
    792
    J'aime reçus:
    0
    il suffit de tester si la page a été appelée avec ou sans paramètre.
     
  19. Peroliv
    Peroliv WRInaute discret
    Inscrit:
    5 Août 2013
    Messages:
    150
    J'aime reçus:
    0
    Mais est-ce que c'est possible pour des pages avec paramètres, sans l'appliquer à la page de base ? ( /bottines.html )
     
  20. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 192
    J'aime reçus:
    1
    la réponse est là tu test si tes $_GET existent et si oui tu met du noindex ...
     
Chargement...
Similar Threads - Désindexer paramètres Forum Date
X-Robots-Tag pour désindexer des paramètres Crawl et indexation Google, sitemaps 10 Juillet 2014
Crédits et mentions légales : pages à désindexer ou pas ? Référencement Google 22 Janvier 2020
Désindéxer pages sans en-têtes, ni balises meta Crawl et indexation Google, sitemaps 6 Décembre 2019
Désindexer page du moteur de recherche interne Crawl et indexation Google, sitemaps 30 Octobre 2019
Pages zombies : faut-il désindexer les pages catégories ? Référencement Google 26 Août 2019
Pages Avis clients : à désindexer ou pas ? e-commerce 19 Août 2019
pages zombies à désindexer Techniques avancées de référencement 29 Juin 2019
Comment desindexer ces pages (AMP Media WP) Débuter en référencement 19 Juin 2019
désindexer et/ou empêcher crawl ? Crawl et indexation Google, sitemaps 4 Janvier 2019
Doit-on désindexer avant un 410 ? Débuter en référencement 11 Décembre 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice