Désindexer un grand nombre de pages (plus de 500 000)

WRInaute discret
Bonjour,

Je travaille sur un site pour lequel il faut déréférencer un grand nombre de pages qui sont à la racine du site ( près de 50% des pages indexées par Google)

Je vois plusieurs pistes, mais en pesant le pour et le contre de chacune c'est dur de choisir :

1) Mettre un 404 ou mieux je pense 410 sur ces pages.
Ce qui fera un nombre très important de 410 (plus de 500 000), et donc via webmastertools google dira qu'à son dernier passage il a rencontré beaucoup de 410 et m'invitera à vérifier qu'il n'y a pas un problème sur mon site. Cela voudra t-il dire que s'il voit toujours autant de 410 lors de ses prochains crawl il finira par pénaliser l'ensemble du site. Ou ce type de message est il un simple message de courtoisie, au cas où il y aurait un problème dont le webmaster ne se serait pas aperçu ?
d'après le support google les 404 ou 410 ne pénalisent pas le site, et en plus cela lui donne moins de travail donc cela semble plutôt ok. De plus par rapport aux pistes 2 et 3, l'avantage est que l'expérience utilisateur est meilleure puisqu'il ne perd pas de temps avec des pages sans intérêt.
cependant pour un très grand nombre de pages qu'en est-il ? je ne trouve pas de doc là dessus


2) Déplacer ces pages dans un répertoire, faire une 301 des anciennes url vers les nouvelles qui sont dans le répertoire et mettre en disallow le répertoire dans le robot.txt
Google semble préconiser cette solution : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=59819
Cette solution implique de faire une redirection de ces pages. En effet elles sont à la racine du site.
Dire à Google l'adresse a changé, maintenant c'est ici mais je ne t'autorise pas à crawler ces pages (pour rappel ces pages aujourd'hui sont référencées par Google), ne risque t-il pas de poser problème ? Les Pages seront-elles désindexées ?

3) Mettre du noindex sur ces pages
Tout est dans le titre : mettre du noindex sur ces pages
Je précise que dans ce cas le site devrait me permettre de faire cela sans redirection dans un répertoire, contrairement à la piste 2
Je lis sur le post de WRI dans cette discussion qu'il faut procéder ainsi plutôt que la piste 2 : https://www.webrankinfo.com/forum/t/page-recherche-php-indexee-malgre-le-noindex.148390/

5) adopter une des solutions 1 à 3 en procédant par paquets de 50 000 par exemple par semaine
par paquet plus petit même ?

5) Ne rien faire
c'est à dire considérer qu'il vaut mieux laisser ces pages de mauvaises qualités pour l'instant plutôt que d'envoyer à google autant de changement
Pour toutes les autres pistes je pars du principe que les pages sans intérêt doivent être retirées. De plus je précise que dernièrement il y a eu de nouvelles pages de ce type et que le trafic global en valeur absolu sur ces pages a baissé ce qui tend à confirmer ce principe d'un point de vue référencement, c'est à dire que ces pages doivent au moins être retirées des résultats google ( voire carrément du site cf piste 1)


Merci à tous pour vos retours, et si vous voyez d'autres pistes n'hésitez pas
 
WRInaute occasionnel
Si tu pense qu'elles sont de mauvaise qualité, je pense que le mieux est le noindex sur les pages.
Pourquoi ?
Parce que Google connait et a déjà indexé ces pages, donc un déplacement en sous-répertoire plus 301 et disallow fera que google n'ira pas crawler ce répertoire mais aura tout de même en mémoire ces pages qui existent toujours.

Le noindex est censé lui faire "oublier ces pages" ce qui serait le mieux.

En tout cas, c'est comme ça que je procèderai :wink:
 
WRInaute discret
je rejoins ta remarque sur la solution 2, néanmoins elle part d'une recommandation du support de google, donc je l'avais mise dans la liste.

Tu conseilles de mettre du noindex, tu confirmes qu'il n'y a pas de problème à en mettre sur un grand nombre de pages d'un seul coup ?

et au sujet de mettre un 410 sur ces pages ?

Merci
 
WRInaute accro
noindex sans hésitation.
J'ai testé sur environ 100 000 pages en one shoot aucun souci.
 
WRInaute passionné
+1 pour le "noindex".

Il m'est arrivé, suite à un oubli, de laisser traîner un "noindex" sur un site complet : je confirme que ça marche fort... :roll:
 
WRInaute discret
franckM a dit:
Le mieux est encore d'utiliser l'outil "url à supprimer" sur GWT en utilisant en outre les recommandations de google:
https://support.google.com/webmasters/bin/answer.py?hl=fr&answer=59819


il y a plus de 500 000 pages ça risque d'être un peu long de faire url par url :)
 
WRInaute discret
ok alors pour le noindex mais deux questions quand même :

- pourquoi pas mettre en 410
Je m'explique : en mettant du 410 ça fait le même effet que du noindex, google va arrêter d'indexer ces pages (peut être est-ce moins rapide avant que les pages disparaissent de google ?)
et en plus si on se place d'un point de vue utilisateur, comme google le recommande, c'est mieux, en effet l'internaute perd pas de temps à consulter une page sans intérêt
maintenant c'est vrai que pour google peut êtr que ça ne change rien

- est-ce que vous savez si mettre du 410 sur un grand nombre de page en one shot peut poser problème ? (j'ai bien compris que pour le noindex vous dites que c'est bon)
 
WRInaute accro
The 410 error is primarily intended to assist the task of Web maintenance by notifying the client system that the resource is intentionally unavailable and that the Web server wants remote links to the URL to be removed. Such an event is common for URLs which are effectively dead i.e. were deliberately time-limited or simply orphaned. The Web server has complete discretion as to how long it provides the 410 error before switching to another error such as 404. (Last updated: March 2012).

Simplement car ce n'est pas l'objet de ta question : Désindexer un grand nombre de pages (plus de 500 000)

désindexer (moteur) n'a rien a voir avec supprimer (serveur) même si l'effet SERP a terme est le même.

De plus une page noindex sera présente dans les SERP si elle est backlinkée en externe (je sais plu où j'ai lue ça) et qu'elle présente un intérêt pour l'utilisateur donc c'est plus logique.
 
WRInaute discret
Merci Zeb, en effet le titre n'est pas ajusté (mais il est trop tard pour l'éditer si j'a bien compris les règles du forum, + de 60mn)

J'estime que ces pages n'ont pas d'intérêt pour l'utilisateur c'est pour ça que j'envisageais de les passer en 404.
Si elles sont backlinkés seront elles commme tu le dis pour les noindex dans les SERP ?

Merci
 
WRInaute passionné
301 vers le plan du site par exemple, cela permet de conserver les backlinks. Même si le contenu de ces pages est mauvais , dans 3 mois, google l'aura oublié :wink:
 
WRInaute discret
Merci à tous pour vos retours, pour résumer :
1)Jibou zeb et M&B proposent de mettre un noindex
2)fandecine propose un 301 vers une page unique par exemple le plan du site
3) la solution de FranckM consistant à désindexer à la main avec l'outil de google n'est pas faisable du fait du volume

Je précise mon problème :
les 500 000 pages de basses qualité ont un impact négatif sur tout le site en terme de référencement, je cherche la meilleur solution pour que google me "redonne ses faveurs" et je pense que pour cela il faut que google enlève ces pages de son index rapidement, ma question est comment faut il procéder pour que google fasse ce travail rapidement et ne me pénalise encore davantage :
1) mettre du noindex et donc ne pas les supprimer brutalement pour l'instant (éventuelement plus tard qd google les aura enlevé de son index)
2)soit supprimer ces pages brutalement ce qui donnera une (404)
3)soit préciser que ces pages sont définitivement supprimer (410)
4)faire une redirection 301 de toutes ces pages vers une seule et même page par exemple le plan du site

Gardez bien en tête que si la meilleure solution est de supprimer ces pages je peux le faire j'ai juste un peu peur que google le pénalise et mettent du temps à désindexer mes pages si je mets un 404 ou 410(qui je sais est fait pour ca mais 500 000 ca fait beaucoup) et ca va donner quoi ? une attente de 3 mois voir plus et en attendant les visiteurs qui vont tomber sur des pages 404 ou 410 ? alors je me demandais si mettre un noindex était plus prudent.

Alors 1 ? 2 ? 3 ? ou 4? ou autre chose peut être ?
mes objectifs : Enlever ces pages de l'index de google et que google redonne ses faveurs au site

Merci pour votre aide
 
WRInaute accro
Si tu souhaite regagner du crédit aux yeux de GG peut tu préciser quel type de sanction tu as subi ou quel algo te pose problème.
 
WRInaute discret
Il s'agit d'un site créé en aout 2011 qui présente des produits en affiliation sous forme de fiches produits.

Voici les étapes :
Le site a vu son trafic augmenter de façon constante de janvier 2012 jusqu'au 23 Mai 2012 ou il a atteint 14000 visiteurs uniques par jours.
Le site a ensuite vu son trafic entre le 24 mai et le 14 juin 2012 baisser peu à peu perdant 30% de visiteurs arrivé au 14 juin.
Le 15 juin nouvelle perte brutale de 35% de visiteurs supplémentaires
Le 16 juin nouvelle perte brutale 22% de visiteurs supplémentaires
Le 26 juin nouvelle perte brutale de 51% de visiteurs
Le 29 juillet nouvelle chute brutale de 50% de visiteurs
Lors du passage de panda le 12 aout pas d'impact
Augmentation de 8% en aout puis nouvelle chute brutale de 10% le 27 aout aout donc globalement retour au niveau de début aout
Chute "en douceur" tout septembre pour atteindre 75% de perte de visiteurs fin septembre
Augmentation progressive jusqu'en décembre (retour au niveau de fin juin)
puis chute progressive de 50% et aujourd'hui stabilisé à ce niveau

Un mail a été envoyé par google en septembre 2011 signalant un nombre élevé d'url en duplicate content.
Cela vient de paramètres de pagination et de filtre divers et du fait que nous n'avions pas de canonical. Nous avons corrigé ces problèmes il y a une semaine, pour l'instant le site étant bien crawlé nous attendons encore 10 jours avant une éventuelle demande de réexamen,mais pas d'amélioration à noter pour le moment après 7 jours

Pour ce qui est des 500 000 pages a supprimer cela concerne autre chose, ce sont des pages produits en affiliation et de qualité faible mais qui ne sont pas du duplicate content

Merci
 
WRInaute accro
Ta première descente "progressive" puis par tranche brutale correspond bien a une mise au rebut de pages de moindre qualité (c'est une impression pas une affirmation). Surtout que ça fait suite à un trimestre de mise en ligne donc fin de prime de fraicheur, puis analyse plus profonde et enfin désindexation du contenu pauvre.

Si c'était Panda ou le manchot la chute de trafic aurait été brutale vers une nouvelle stabilité basse.

J'ai un site qui a vécu un truc du même genre et j'ai joué la carte no-index sur les pages pauvres (que je conserve). Le trafic est remonté progressivement. J'ai ensuite viré le no-index et la progression à continuée (te raconterai la suite dans 3 mois ou jamais si ça replonge pas).

Nous avons corrigé ces problèmes il y a une semaine, pour l'instant le site étant bien crawlé nous attendons encore 10 jours avant une éventuelle demande de réexamen
L'effet no-index a été rapide chez moi (environ une semaine de mémoire après que la majorité ds url ont été visitées), mais il est tombé sur une période ou le site subissait un Crawl d'importance (d'habitude j'ai un ou deux bots toute la journée, parfois ils s'y mettent a 10 15 et crawlent tout le site plus rapidement et là ça a été le cas)

Faible qualité ou pas, je virerait pas ces pages perso, le no-index permet de se prémunir des foudres de GG mais faut pas non plu baisser le froc tous le temps vis a vis de lui. Si tu utilise cette technique pense a cloacker la méta pour que Bing (qui n'a rien a faire de GG) lui continu d'indexer ces pages. De plus si vous avez créé ces pages c'est qu'elles ont une finalité pour vous ...
 
WRInaute discret
Une erreur s'est glissée dans les dates de mon poste précédent (j'ai décalé d'un an ... le temps passe vite) le site a été créé en aout 2010 et pénalisé à partir de mai 2011

Merci zeb pour ton post, c'est très intéressant. Je donnerai par la suite dans ce post les résultats et la solution choisie pour ces nombreuses pages à contenu basse qualité, on devrait s'orienter vers le noindex comme tu le suggères.

J'attends avant de lancer cette modification, de pouvoir estimer l'impact d'un premier changement d'importance que nous avons fait : en effet nous avons fait il y a 10 jours un travail pour éliminer le duplicate content (noindex sur pages filtrées + canonical + 301) et pour l'instant augmentation du crawl mais pas d'impact sur le trafic.
Par contre j'ai remarqué un point étonnant, prenons l'exemple de wri :
si, au lieu de taper cette url : https://www.webrankinfo.com/forum/desindexer-grand-nombre-pages-plus-500-00 ... 54505.html
je tape : https://www.webrankinfo.com/forum/t/desindexer-un-grand-nombre-de-pages-plus-de-500-000.154505/

Wri a mis en place un canonical sur la véritable url et une redirection 301 sur l'url mal écrite
On avait de notre côté plusieurs centaines de pages que google considérait en duplicate content car on n'avait pas mis de canonical et donc google considérait que 2 url différentes pointaient sur le même contenu et donc avaient le même title. On a donc mis en place le canonical et une 301 ... et je vois aujourd'hui donc 9 jours après notre modification que Webmastertools m'indique un nombre plus important de pages en duplicate content pour le title, il me signale à chaque fois dans ces exemples de duplicate une url modifié du type : https://www.webrankinfo.com/forum/t/desindexer-un-grand-nombre-de-pages-plus-de-500-000.154505/ et en dessous indique la véritable url. Tout se passe comme si Google avait crawlé la véritable url et qu'il me disait qu'elle a le meme title qu'une autre page qu il a déjà stockée déjà dans son index, et donc surement sans vérifier cette page avec l url erronée qu'il connait, en effet s'il avait vérifié, il aurait vu une 301 lui indiquant que cette page est déplacée définitivement et que les 2 pages sont une seule et même page.

Je commence à me demander :
1)Est ce que c'est transitoire, google va finir par vérifier tout seul les lien dans ce cas j'ai juste à patienter ...
2)Est il préférable de ne pas mettre de 301 et juste un rel canonical sur la page dont l'url n'est pas bonne

(la fin de mon message concerne toujours le duplicate content mais non plus les 500 000 pages dont je parle dans le titre ... ceci dit ca concerne à peu près autant de pages mais pas les mêmes)

Merci à ceux qui auront lu jusqu'au bout
 
Nouveau WRInaute
Bonjour,

Je dois actuellement supprimer de l'index plus de 400 000 pages donc je viens de lire ce post très intéressant. J'ai encore 2 questions qui viennent :

1- Ok pour le noindex mais est il utile de faire une 301 sur chaque (extrêmement long) sachant que les pages vont disparaître apparemment assez rapidement et le link juice avec.... Utile ou pas?

2-
Si tu utilise cette technique pense a cloacker la méta pour que Bing (qui n'a rien a faire de GG) lui continu d'indexer ces pages. De plus si vous avez créé ces pages c'est qu'elles ont une finalité pour vous ...

Pourrais tu m'expliquer ceci stp car ça m’intéresse.

Merci d'avance ;-)
 
WRInaute accro
Les spé de Google et son utilisation massive en Europe fait que beaucoup d'entre nous "travaillent on-site pour google".
Cela ne pose a priori pas de souci et c'est même louable vue le trafic que peut apporter GG, mais il est évident que certaines spé de GG sont contreproductives vis a vis de Bing.

Le "no-index" visant a débarrasser l'index de GG de pages "a faible contenu ou valeur ajouté" est souvent totalement inutile pour bing qui lui passe très bien la dessus. Bref optimiser GG reviens parfois a pénaliser côté Bing. Il deviens donc de plus en plus nécessaire de cloacker les page pour servir a GG une version qui est optimisé pour lui mais pas pour les autres moteurs ....

A noter que le no-index n'est pas le seul problème, il faut aussi se dire que bing avec son retard accepte des textes plus bourrin niveau keyword et sémantique Bref si on veux passer fort sur l'un il faut savoir adapter pour l'autre.
 
WRInaute accro
Drinato a dit:
name="googlebot"
ce tag me laisse songeur je suis pas certain que tous les moteurs le comprenne ...
J'utilise <meta name="robots" content="noindex" /> et je cloack si necessaire (condition sur le UA ou l'IP)
 
Discussions similaires
Haut