270000 pages à désindexer. Comment faire ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par jojohit, 31 Mai 2013.

  1. jojohit
    jojohit WRInaute discret
    Inscrit:
    12 Mai 2008
    Messages:
    112
    J'aime reçus:
    0
    Bonsoir,

    En jetant un coup d’œil dans le Webmaster Tool (ça faisait plusieurs semaines que je n'y étais pas allé), je constate à ma grande surprise avoir 270000 pages indexées... Très surprenant en sachant que mon site ne devrait en avoir pas plus de 1500 à tout casser.

    En faisant des recherches sur Google avec les commandes site: et inurl: je m'aperçois que les 270000 pages en trop sont des urls qui reprennent dans n'importe quel ordre des rubriques de mon site (des répertoires dans l'url) et les rubriques d'un autre site (toujours les mêmes répertoire). J'ai contacté le webmaster du site en question qui m'a rapidement répondu ne pas en connaitre la cause, puisqu'il ne connaissait même pas mon site.

    Comment faire pour désindexer toutes ces pages ? J'ai identifié les répertoires de l'autre site à indiquer dans mes urls qui doivent être désindexées. Si je l'indique en disallow dans mon robots.txt, les pages ne seront plus crawlées mais cela ne les désindexera pas.

    Je ne peux non plus me taper 270000 urls à la main, et je ne peux pas non plus utiliser la meta noindex.

    Comment faire, parce que là je sèche...

    Merci pour votre aide :wink:
     
  2. Acerouk
    Acerouk WRInaute occasionnel
    Inscrit:
    16 Février 2008
    Messages:
    448
    J'aime reçus:
    0
    La meilleure façon qu'une page ne soit pas indexée c'est qu'elle n'existe pas et que l'url retourne une 404...
     
  3. jojohit
    jojohit WRInaute discret
    Inscrit:
    12 Mai 2008
    Messages:
    112
    J'aime reçus:
    0
    Bonjour,

    Effectivement c'est la meilleure solution.

    Je teste si l'url contient les répertoires du site en question ; si oui je renvoie une erreur 404. Y a plus qu'à attendre que GoogleBot fasse son boulot rapidement :roll:
     
  4. Acerouk
    Acerouk WRInaute occasionnel
    Inscrit:
    16 Février 2008
    Messages:
    448
    J'aime reçus:
    0
    Pourquoi ne pas tester si l'url appartient bien à ton site et envoyer un 404 dans tous les autres cas ?
    Parce qu'avec tous les sites de m.... qui font des liens vers des pages qui n'existent pas, tu n'as pas fini de les recenser.
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 691
    J'aime reçus:
    439
    à mon humble avis, c'est peut-être la pire solution !
    pour faire désindexer une page, il faut ajouter une balise meta robots noindex
    si on est pressé, il faut faire une demande de suppression de page dans GWT (mais ça peut être compliqué pour gérer un tel volume)
     
Chargement...
Similar Threads - 270000 désindexer Forum Date
Désindexer les pages http (sans certificat SSL) après piratage japonais Crawl et indexation Google, sitemaps 1 Juillet 2020
WordPress désindexer les pages feed Crawl et indexation Google, sitemaps 8 Juin 2020
Désindexer liste d'URL en générant un sitemap Crawl et indexation Google, sitemaps 2 Mai 2020
Crédits et mentions légales : pages à désindexer ou pas ? Référencement Google 22 Janvier 2020
Désindéxer pages sans en-têtes, ni balises meta Crawl et indexation Google, sitemaps 6 Décembre 2019
Désindexer page du moteur de recherche interne Crawl et indexation Google, sitemaps 30 Octobre 2019
Pages zombies : faut-il désindexer les pages catégories ? Référencement Google 26 Août 2019
Pages Avis clients : à désindexer ou pas ? e-commerce 19 Août 2019
pages zombies à désindexer Techniques avancées de référencement 29 Juin 2019
Comment desindexer ces pages (AMP Media WP) Débuter en référencement 19 Juin 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice