270000 pages à désindexer. Comment faire ?

WRInaute discret
Bonsoir,

En jetant un coup d’œil dans le Webmaster Tool (ça faisait plusieurs semaines que je n'y étais pas allé), je constate à ma grande surprise avoir 270000 pages indexées... Très surprenant en sachant que mon site ne devrait en avoir pas plus de 1500 à tout casser.

En faisant des recherches sur Google avec les commandes site: et inurl: je m'aperçois que les 270000 pages en trop sont des urls qui reprennent dans n'importe quel ordre des rubriques de mon site (des répertoires dans l'url) et les rubriques d'un autre site (toujours les mêmes répertoire). J'ai contacté le webmaster du site en question qui m'a rapidement répondu ne pas en connaitre la cause, puisqu'il ne connaissait même pas mon site.

Comment faire pour désindexer toutes ces pages ? J'ai identifié les répertoires de l'autre site à indiquer dans mes urls qui doivent être désindexées. Si je l'indique en disallow dans mon robots.txt, les pages ne seront plus crawlées mais cela ne les désindexera pas.

Je ne peux non plus me taper 270000 urls à la main, et je ne peux pas non plus utiliser la meta noindex.

Comment faire, parce que là je sèche...

Merci pour votre aide :wink:
 
WRInaute occasionnel
La meilleure façon qu'une page ne soit pas indexée c'est qu'elle n'existe pas et que l'url retourne une 404...
 
WRInaute discret
Bonjour,

Effectivement c'est la meilleure solution.

Je teste si l'url contient les répertoires du site en question ; si oui je renvoie une erreur 404. Y a plus qu'à attendre que GoogleBot fasse son boulot rapidement :roll:
 
WRInaute occasionnel
Pourquoi ne pas tester si l'url appartient bien à ton site et envoyer un 404 dans tous les autres cas ?
Parce qu'avec tous les sites de m.... qui font des liens vers des pages qui n'existent pas, tu n'as pas fini de les recenser.
 
Olivier Duffez (admin)
Membre du personnel
Acerouk a dit:
La meilleure façon qu'une page ne soit pas indexée c'est qu'elle n'existe pas et que l'url retourne une 404...
à mon humble avis, c'est peut-être la pire solution !
pour faire désindexer une page, il faut ajouter une balise meta robots noindex
si on est pressé, il faut faire une demande de suppression de page dans GWT (mais ça peut être compliqué pour gérer un tel volume)
 
Discussions similaires
Haut