Désindexer un grand nombre de pages (plus de 500 000)

Discussion dans 'Débuter en référencement' créé par Drinato, 10 Mai 2012.

  1. Drinato
    Drinato WRInaute discret
    Inscrit:
    19 Avril 2012
    Messages:
    79
    J'aime reçus:
    0
    Bonjour,

    Je travaille sur un site pour lequel il faut déréférencer un grand nombre de pages qui sont à la racine du site ( près de 50% des pages indexées par Google)

    Je vois plusieurs pistes, mais en pesant le pour et le contre de chacune c'est dur de choisir :

    1) Mettre un 404 ou mieux je pense 410 sur ces pages.
    Ce qui fera un nombre très important de 410 (plus de 500 000), et donc via webmastertools google dira qu'à son dernier passage il a rencontré beaucoup de 410 et m'invitera à vérifier qu'il n'y a pas un problème sur mon site. Cela voudra t-il dire que s'il voit toujours autant de 410 lors de ses prochains crawl il finira par pénaliser l'ensemble du site. Ou ce type de message est il un simple message de courtoisie, au cas où il y aurait un problème dont le webmaster ne se serait pas aperçu ?
    d'après le support google les 404 ou 410 ne pénalisent pas le site, et en plus cela lui donne moins de travail donc cela semble plutôt ok. De plus par rapport aux pistes 2 et 3, l'avantage est que l'expérience utilisateur est meilleure puisqu'il ne perd pas de temps avec des pages sans intérêt.
    cependant pour un très grand nombre de pages qu'en est-il ? je ne trouve pas de doc là dessus


    2) Déplacer ces pages dans un répertoire, faire une 301 des anciennes url vers les nouvelles qui sont dans le répertoire et mettre en disallow le répertoire dans le robot.txt
    Google semble préconiser cette solution : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=59819
    Cette solution implique de faire une redirection de ces pages. En effet elles sont à la racine du site.
    Dire à Google l'adresse a changé, maintenant c'est ici mais je ne t'autorise pas à crawler ces pages (pour rappel ces pages aujourd'hui sont référencées par Google), ne risque t-il pas de poser problème ? Les Pages seront-elles désindexées ?

    3) Mettre du noindex sur ces pages
    Tout est dans le titre : mettre du noindex sur ces pages
    Je précise que dans ce cas le site devrait me permettre de faire cela sans redirection dans un répertoire, contrairement à la piste 2
    Je lis sur le post de WRI dans cette discussion qu'il faut procéder ainsi plutôt que la piste 2 : https://www.webrankinfo.com/forum/t/page-recherche-php-indexee-malgre-le-noindex.148390/

    5) adopter une des solutions 1 à 3 en procédant par paquets de 50 000 par exemple par semaine
    par paquet plus petit même ?

    5) Ne rien faire
    c'est à dire considérer qu'il vaut mieux laisser ces pages de mauvaises qualités pour l'instant plutôt que d'envoyer à google autant de changement
    Pour toutes les autres pistes je pars du principe que les pages sans intérêt doivent être retirées. De plus je précise que dernièrement il y a eu de nouvelles pages de ce type et que le trafic global en valeur absolu sur ces pages a baissé ce qui tend à confirmer ce principe d'un point de vue référencement, c'est à dire que ces pages doivent au moins être retirées des résultats google ( voire carrément du site cf piste 1)


    Merci à tous pour vos retours, et si vous voyez d'autres pistes n'hésitez pas
     
  2. Djibou_Te@M
    Djibou_Te@M WRInaute occasionnel
    Inscrit:
    20 Avril 2010
    Messages:
    406
    J'aime reçus:
    0
    Si tu pense qu'elles sont de mauvaise qualité, je pense que le mieux est le noindex sur les pages.
    Pourquoi ?
    Parce que Google connait et a déjà indexé ces pages, donc un déplacement en sous-répertoire plus 301 et disallow fera que google n'ira pas crawler ce répertoire mais aura tout de même en mémoire ces pages qui existent toujours.

    Le noindex est censé lui faire "oublier ces pages" ce qui serait le mieux.

    En tout cas, c'est comme ça que je procèderai :wink:
     
  3. Drinato
    Drinato WRInaute discret
    Inscrit:
    19 Avril 2012
    Messages:
    79
    J'aime reçus:
    0
    je rejoins ta remarque sur la solution 2, néanmoins elle part d'une recommandation du support de google, donc je l'avais mise dans la liste.

    Tu conseilles de mettre du noindex, tu confirmes qu'il n'y a pas de problème à en mettre sur un grand nombre de pages d'un seul coup ?

    et au sujet de mettre un 410 sur ces pages ?

    Merci
     
  4. franckM
    franckM WRInaute impliqué
    Inscrit:
    15 Novembre 2007
    Messages:
    808
    J'aime reçus:
    0
  5. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    noindex sans hésitation.
    J'ai testé sur environ 100 000 pages en one shoot aucun souci.
     
  6. M&B Multimédia
    M&B Multimédia WRInaute passionné
    Inscrit:
    1 Octobre 2009
    Messages:
    1 117
    J'aime reçus:
    0
    +1 pour le "noindex".

    Il m'est arrivé, suite à un oubli, de laisser traîner un "noindex" sur un site complet : je confirme que ça marche fort... :roll:
     
  7. Drinato
    Drinato WRInaute discret
    Inscrit:
    19 Avril 2012
    Messages:
    79
    J'aime reçus:
    0

    il y a plus de 500 000 pages ça risque d'être un peu long de faire url par url :)
     
  8. Drinato
    Drinato WRInaute discret
    Inscrit:
    19 Avril 2012
    Messages:
    79
    J'aime reçus:
    0
    ok alors pour le noindex mais deux questions quand même :

    - pourquoi pas mettre en 410
    Je m'explique : en mettant du 410 ça fait le même effet que du noindex, google va arrêter d'indexer ces pages (peut être est-ce moins rapide avant que les pages disparaissent de google ?)
    et en plus si on se place d'un point de vue utilisateur, comme google le recommande, c'est mieux, en effet l'internaute perd pas de temps à consulter une page sans intérêt
    maintenant c'est vrai que pour google peut êtr que ça ne change rien

    - est-ce que vous savez si mettre du 410 sur un grand nombre de page en one shot peut poser problème ? (j'ai bien compris que pour le noindex vous dites que c'est bon)
     
  9. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    Simplement car ce n'est pas l'objet de ta question : Désindexer un grand nombre de pages (plus de 500 000)

    désindexer (moteur) n'a rien a voir avec supprimer (serveur) même si l'effet SERP a terme est le même.

    De plus une page noindex sera présente dans les SERP si elle est backlinkée en externe (je sais plu où j'ai lue ça) et qu'elle présente un intérêt pour l'utilisateur donc c'est plus logique.
     
  10. Drinato
    Drinato WRInaute discret
    Inscrit:
    19 Avril 2012
    Messages:
    79
    J'aime reçus:
    0
    Merci Zeb, en effet le titre n'est pas ajusté (mais il est trop tard pour l'éditer si j'a bien compris les règles du forum, + de 60mn)

    J'estime que ces pages n'ont pas d'intérêt pour l'utilisateur c'est pour ça que j'envisageais de les passer en 404.
    Si elles sont backlinkés seront elles commme tu le dis pour les noindex dans les SERP ?

    Merci
     
  11. fandecine
    fandecine WRInaute passionné
    Inscrit:
    2 Avril 2005
    Messages:
    1 886
    J'aime reçus:
    0
    301 vers le plan du site par exemple, cela permet de conserver les backlinks. Même si le contenu de ces pages est mauvais , dans 3 mois, google l'aura oublié :wink:
     
  12. Drinato
    Drinato WRInaute discret
    Inscrit:
    19 Avril 2012
    Messages:
    79
    J'aime reçus:
    0
    Merci à tous pour vos retours, pour résumer :
    1)Jibou zeb et M&B proposent de mettre un noindex
    2)fandecine propose un 301 vers une page unique par exemple le plan du site
    3) la solution de FranckM consistant à désindexer à la main avec l'outil de google n'est pas faisable du fait du volume

    Je précise mon problème :
    les 500 000 pages de basses qualité ont un impact négatif sur tout le site en terme de référencement, je cherche la meilleur solution pour que google me "redonne ses faveurs" et je pense que pour cela il faut que google enlève ces pages de son index rapidement, ma question est comment faut il procéder pour que google fasse ce travail rapidement et ne me pénalise encore davantage :
    1) mettre du noindex et donc ne pas les supprimer brutalement pour l'instant (éventuelement plus tard qd google les aura enlevé de son index)
    2)soit supprimer ces pages brutalement ce qui donnera une (404)
    3)soit préciser que ces pages sont définitivement supprimer (410)
    4)faire une redirection 301 de toutes ces pages vers une seule et même page par exemple le plan du site

    Gardez bien en tête que si la meilleure solution est de supprimer ces pages je peux le faire j'ai juste un peu peur que google le pénalise et mettent du temps à désindexer mes pages si je mets un 404 ou 410(qui je sais est fait pour ca mais 500 000 ca fait beaucoup) et ca va donner quoi ? une attente de 3 mois voir plus et en attendant les visiteurs qui vont tomber sur des pages 404 ou 410 ? alors je me demandais si mettre un noindex était plus prudent.

    Alors 1 ? 2 ? 3 ? ou 4? ou autre chose peut être ?
    mes objectifs : Enlever ces pages de l'index de google et que google redonne ses faveurs au site

    Merci pour votre aide
     
  13. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    Si tu souhaite regagner du crédit aux yeux de GG peut tu préciser quel type de sanction tu as subi ou quel algo te pose problème.
     
  14. Drinato
    Drinato WRInaute discret
    Inscrit:
    19 Avril 2012
    Messages:
    79
    J'aime reçus:
    0
    Il s'agit d'un site créé en aout 2011 qui présente des produits en affiliation sous forme de fiches produits.

    Voici les étapes :
    Le site a vu son trafic augmenter de façon constante de janvier 2012 jusqu'au 23 Mai 2012 ou il a atteint 14000 visiteurs uniques par jours.
    Le site a ensuite vu son trafic entre le 24 mai et le 14 juin 2012 baisser peu à peu perdant 30% de visiteurs arrivé au 14 juin.
    Le 15 juin nouvelle perte brutale de 35% de visiteurs supplémentaires
    Le 16 juin nouvelle perte brutale 22% de visiteurs supplémentaires
    Le 26 juin nouvelle perte brutale de 51% de visiteurs
    Le 29 juillet nouvelle chute brutale de 50% de visiteurs
    Lors du passage de panda le 12 aout pas d'impact
    Augmentation de 8% en aout puis nouvelle chute brutale de 10% le 27 aout aout donc globalement retour au niveau de début aout
    Chute "en douceur" tout septembre pour atteindre 75% de perte de visiteurs fin septembre
    Augmentation progressive jusqu'en décembre (retour au niveau de fin juin)
    puis chute progressive de 50% et aujourd'hui stabilisé à ce niveau

    Un mail a été envoyé par google en septembre 2011 signalant un nombre élevé d'url en duplicate content.
    Cela vient de paramètres de pagination et de filtre divers et du fait que nous n'avions pas de canonical. Nous avons corrigé ces problèmes il y a une semaine, pour l'instant le site étant bien crawlé nous attendons encore 10 jours avant une éventuelle demande de réexamen,mais pas d'amélioration à noter pour le moment après 7 jours

    Pour ce qui est des 500 000 pages a supprimer cela concerne autre chose, ce sont des pages produits en affiliation et de qualité faible mais qui ne sont pas du duplicate content

    Merci
     
  15. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    Ta première descente "progressive" puis par tranche brutale correspond bien a une mise au rebut de pages de moindre qualité (c'est une impression pas une affirmation). Surtout que ça fait suite à un trimestre de mise en ligne donc fin de prime de fraicheur, puis analyse plus profonde et enfin désindexation du contenu pauvre.

    Si c'était Panda ou le manchot la chute de trafic aurait été brutale vers une nouvelle stabilité basse.

    J'ai un site qui a vécu un truc du même genre et j'ai joué la carte no-index sur les pages pauvres (que je conserve). Le trafic est remonté progressivement. J'ai ensuite viré le no-index et la progression à continuée (te raconterai la suite dans 3 mois ou jamais si ça replonge pas).

    L'effet no-index a été rapide chez moi (environ une semaine de mémoire après que la majorité ds url ont été visitées), mais il est tombé sur une période ou le site subissait un Crawl d'importance (d'habitude j'ai un ou deux bots toute la journée, parfois ils s'y mettent a 10 15 et crawlent tout le site plus rapidement et là ça a été le cas)

    Faible qualité ou pas, je virerait pas ces pages perso, le no-index permet de se prémunir des foudres de GG mais faut pas non plu baisser le froc tous le temps vis a vis de lui. Si tu utilise cette technique pense a cloacker la méta pour que Bing (qui n'a rien a faire de GG) lui continu d'indexer ces pages. De plus si vous avez créé ces pages c'est qu'elles ont une finalité pour vous ...
     
  16. Drinato
    Drinato WRInaute discret
    Inscrit:
    19 Avril 2012
    Messages:
    79
    J'aime reçus:
    0
    Une erreur s'est glissée dans les dates de mon poste précédent (j'ai décalé d'un an ... le temps passe vite) le site a été créé en aout 2010 et pénalisé à partir de mai 2011

    Merci zeb pour ton post, c'est très intéressant. Je donnerai par la suite dans ce post les résultats et la solution choisie pour ces nombreuses pages à contenu basse qualité, on devrait s'orienter vers le noindex comme tu le suggères.

    J'attends avant de lancer cette modification, de pouvoir estimer l'impact d'un premier changement d'importance que nous avons fait : en effet nous avons fait il y a 10 jours un travail pour éliminer le duplicate content (noindex sur pages filtrées + canonical + 301) et pour l'instant augmentation du crawl mais pas d'impact sur le trafic.
    Par contre j'ai remarqué un point étonnant, prenons l'exemple de wri :
    si, au lieu de taper cette url : https://www.webrankinfo.com/forum/desindexer-grand-nombre-pages-plus-500-00 ... 54505.html
    je tape : https://www.webrankinfo.com/forum/t/desindexer-un-grand-nombre-de-pages-plus-de-500-000.154505/

    Wri a mis en place un canonical sur la véritable url et une redirection 301 sur l'url mal écrite
    On avait de notre côté plusieurs centaines de pages que google considérait en duplicate content car on n'avait pas mis de canonical et donc google considérait que 2 url différentes pointaient sur le même contenu et donc avaient le même title. On a donc mis en place le canonical et une 301 ... et je vois aujourd'hui donc 9 jours après notre modification que Webmastertools m'indique un nombre plus important de pages en duplicate content pour le title, il me signale à chaque fois dans ces exemples de duplicate une url modifié du type : https://www.webrankinfo.com/forum/t/desindexer-un-grand-nombre-de-pages-plus-de-500-000.154505/ et en dessous indique la véritable url. Tout se passe comme si Google avait crawlé la véritable url et qu'il me disait qu'elle a le meme title qu'une autre page qu il a déjà stockée déjà dans son index, et donc surement sans vérifier cette page avec l url erronée qu'il connait, en effet s'il avait vérifié, il aurait vu une 301 lui indiquant que cette page est déplacée définitivement et que les 2 pages sont une seule et même page.

    Je commence à me demander :
    1)Est ce que c'est transitoire, google va finir par vérifier tout seul les lien dans ce cas j'ai juste à patienter ...
    2)Est il préférable de ne pas mettre de 301 et juste un rel canonical sur la page dont l'url n'est pas bonne

    (la fin de mon message concerne toujours le duplicate content mais non plus les 500 000 pages dont je parle dans le titre ... ceci dit ca concerne à peu près autant de pages mais pas les mêmes)

    Merci à ceux qui auront lu jusqu'au bout
     
  17. AcceswebPME
    AcceswebPME Nouveau WRInaute
    Inscrit:
    6 Septembre 2012
    Messages:
    16
    J'aime reçus:
    0
    Doublon merci de regarder le dernier post;-) Dsl !
     
  18. AcceswebPME
    AcceswebPME Nouveau WRInaute
    Inscrit:
    6 Septembre 2012
    Messages:
    16
    J'aime reçus:
    0
    Bonjour,

    Je dois actuellement supprimer de l'index plus de 400 000 pages donc je viens de lire ce post très intéressant. J'ai encore 2 questions qui viennent :

    1- Ok pour le noindex mais est il utile de faire une 301 sur chaque (extrêmement long) sachant que les pages vont disparaître apparemment assez rapidement et le link juice avec.... Utile ou pas?

    2-
    Pourrais tu m'expliquer ceci stp car ça m’intéresse.

    Merci d'avance ;-)
     
  19. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    Les spé de Google et son utilisation massive en Europe fait que beaucoup d'entre nous "travaillent on-site pour google".
    Cela ne pose a priori pas de souci et c'est même louable vue le trafic que peut apporter GG, mais il est évident que certaines spé de GG sont contreproductives vis a vis de Bing.

    Le "no-index" visant a débarrasser l'index de GG de pages "a faible contenu ou valeur ajouté" est souvent totalement inutile pour bing qui lui passe très bien la dessus. Bref optimiser GG reviens parfois a pénaliser côté Bing. Il deviens donc de plus en plus nécessaire de cloacker les page pour servir a GG une version qui est optimisé pour lui mais pas pour les autres moteurs ....

    A noter que le no-index n'est pas le seul problème, il faut aussi se dire que bing avec son retard accepte des textes plus bourrin niveau keyword et sémantique Bref si on veux passer fort sur l'un il faut savoir adapter pour l'autre.
     
  20. AcceswebPME
    AcceswebPME Nouveau WRInaute
    Inscrit:
    6 Septembre 2012
    Messages:
    16
    J'aime reçus:
    0
    Merci beaucoup pour ta précision;-)
     
  21. Drinato
    Drinato WRInaute discret
    Inscrit:
    19 Avril 2012
    Messages:
    79
    J'aime reçus:
    0
    @zeb Et préfères tu plutôt dans ce cas mettre du <meta content="noindex" name="googlebot"> ou utiliser le htaccess ?
     
  22. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    ce tag me laisse songeur je suis pas certain que tous les moteurs le comprenne ...
    J'utilise <meta name="robots" content="noindex" /> et je cloack si necessaire (condition sur le UA ou l'IP)
     
  23. Drinato
    Drinato WRInaute discret
    Inscrit:
    19 Avril 2012
    Messages:
    79
    J'aime reçus:
    0
    Merci pour la réponse, et ne songe pas trop pour ce qui est du tag ! Peut être qu'Olivier (WRI) peut nous éclairer
     
Chargement...
Similar Threads - Désindexer nombre (plus Forum Date
RM Tech - Désindexer un grand nombre de pages... est-ce que cela peut nuire ? Débuter en référencement 31 Octobre 2018
Désindexer un grand nombre d'URL spams Crawl et indexation Google, sitemaps 13 Septembre 2018
Site hacké et nombreuses pages à désindexer Problèmes de référencement spécifiques à vos sites 2 Janvier 2017
Comment désindexer un grand nombre de pages Débuter en référencement 24 Octobre 2011
Crédits et mentions légales : pages à désindexer ou pas ? Référencement Google Mercredi à 11:27
Désindéxer pages sans en-têtes, ni balises meta Crawl et indexation Google, sitemaps 6 Décembre 2019
Désindexer page du moteur de recherche interne Crawl et indexation Google, sitemaps 30 Octobre 2019
Pages zombies : faut-il désindexer les pages catégories ? Référencement Google 26 Août 2019
Pages Avis clients : à désindexer ou pas ? e-commerce 19 Août 2019
pages zombies à désindexer Techniques avancées de référencement 29 Juin 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice