Annonces Google

Vous êtes ici : Dossiers référencement > Indexation Google

Comment désindexer des pages de Google ? Le tuto ultra complet !

Par , le 22 décembre 2015

Il est bien plus courant qu'on ne l'imagine d'avoir besoin de désindexer des pages de Google, c'est-à-dire de les supprimer de l'index. Ceci permet de nettoyer le site et parfois de sortir d'une pénalité. Voici comment faire...

Tuto : comment supprimer des pages de Google

Ce tuto vous expliquer comment enlever une page de Google, c'est-à-dire la supprimer de son index. Il doit s'agir de votre propre site.

Il y a de nombreux cas de figure et ce tuto les décrit a priori tous. Si vous êtes dans un cas particulier non listé, n'hésite pas à me l'indiquer ! Et si vous ne vous en sortez pas tout seul, contactez-moi pour du consulting.

Pourquoi faut-il parfois désindexer des pages ?

Il y a plusieurs situations :

  • vous n'aviez pas réalisé que certaines pages étaient indexées - et ce n'était pas prévu
  • certaines pages créent du contenu dupliqué interne et vous souhaitez vous en débarrasser
  • vous estimez que des pages (de faible qualité) vous font prendre trop de risques avec l'algorithme de Google (ou même avec l'équipe qualité de la recherche si elle venait à passer par là) et vous souhaitez donc les supprimer de Google
  • une ou plusieurs pages vous posent des problèmes juridiques et vous devez les retirer au plus vite de votre site et de Google
  • etc.

Si vous êtes déjà venu à ma formation, vous savez que je décris le concept de masse noire (des pages que Google crawle et parfois indexe et qui ne devraient pas l'être). Si la part de la masse noire devient trop importante sur votre site, il est grand temps de faire le ménage !

Et si vous n'êtes pas encore venu, consultez le programme détaillé !

Quelle différence entre pages indexables et pages indexées ?

Une page indexable est une page qui respecte toutes les conditions techniques pour qu'elle soit indexée.

Une page indexée est une page que Google a crawlé et "décidé" d'ajouter à son index (il arrive que Google crawle une page indexable et ne l'indexe pas malgré tout).

Je rappelle que pour être indexable, une page doit évidemment être également "crawlable" !

Une page crawlable est une page autorisée au crawl : en clair, non bloquée dans le fichier robots.txt même s'il existe un cas particulier que j'expose plus loin. Elle doit également être accessible (à Google) et d'un format pris en charge.

A l'inverse, une page non-indexable est une page pour laquelle on indique à Google qu'il ne doit pas l'indexer. Comme vous l'avez deviné, pour désindexer une page de Google, vous devez :

  1. la rendre non-indexable pour Google
  2. puis la faire désindexer

Je détaille ces 2 étapes ci-après.

Envie de faire la liste des pages crawlables et indexables de votre site ? Lancez un audit RM Tech

Comment rendre une page non-indexable ?

La première question à vous poser est sans doute la suivante : la page que vous souhaitez désindexer doit-elle rester consultable par les internautes ?

Comment désindexer une page toujours accessible aux internautes ?

Dans ce cas de figure, vous devez choisir parmi ces solutions (les liens donnent les détails si besoin) :

  • ajouter une balise meta robots noindex (ou none) permet d'indiquer aux moteurs que vous ne souhaitez pas qu'elle soit indexée. Si jamais elle est actuellement indexée, elle sera désindexée quand Google détectera cette balise dans la page ; si elle n'est pas encore indexée, alors elle ne le sera pas non plus à l'avenir (il s'agit donc de prévention)
  • envoyer un entête HTTP spécial (X-Robots-Tag) : c'est la même idée que la balise meta robots noindex. Elle s'impose quand le document à désindexer n'est pas une page HTML, car dans ce cas vous ne pouvez pas ajouter de balises meta (PDF, documents Word ou Excel, etc.).
  • définir une URL canonique différente de l'URL de la page à désindexer. Par exemple, une fiche produit est accessible aussi bien à l'URL A qu'à l'URL temporaire B pour cause de promotion. Vous pouvez définir dans la page B une URL canonique faisant référence à A. Attention, l'URL canonique est un indicateur que vous fournissez à Google, lequel ne s'engage pas à le respecter dans 100% des cas.

Ensuite, soit vous attendez que Google désindexe la page, soit vous accélérez le processus (voir ci-dessous).

Comme je sais que vous avez bien suivi mes explications, vous avez compris que votre page doit être crawlable, n'est-ce pas ? Car si vous interdisez à Google de la crawler, il ne pourra pas constater que vous demandez qu'elle soit désindexée. Je discute de ce cas de figure dans ce dossier.

Comment désindexer une page qui n'est plus accessible ?

Dans ce cas de figure, vous devez choisir parmi ces solutions les plus courantes :

  • envoyer un code HTTP 404 ou 410 : ceci indique à Google que la page n'existe pas (404) ou plus (410). Le code 410 semble plus efficace, car avec un code 404 il peut se passer plusieurs mois avant que Google décide enfin de désindexer la page ! Si vous êtes perdus dans tous ces codes HTTP, consultez ma liste.
  • envoyer un entête HTTP spécial (X-Robots-Tag) : c'est la même idée que la balise meta robots noindex. Elle s'impose quand le document à désindexer n'est pas une page HTML, car dans ce cas vous ne pouvez pas ajouter de balises meta (PDF, documents Word ou Excel, etc.).
  • rediriger en 301 vers une autre page : on utilise cette méthode quand on pense que l'URL à supprimer avait obtenu des (bons) backlinks (par exemple en ecommerce ou site de petites annonces). Pour éviter d'en perdre le bénéfice, il faut mettre en place une redirection permanente. Notez que si vous faites ça sur une grosse quantité d'URL, il est probable que Google considère ça comme des soft 404 et qu'au final les pages ne soient pas désindexées.

Ensuite, soit vous attendez que Google désindexe la page (ça peut être très long), soit vous accélérez le processus (voir ci-dessous).

Comment vérifier qu'une page est non-indexable ?

Vous pouvez utiliser différents outils pour vérifier que vous êtes bien dans une des situations exposées précédemment.

Je vous recommande néanmoins de passer par un logiciel spécialisé (comme RM Tech, celui que j'ai conçu chez My Ranking Metrics). Après une analyse exhaustive de votre site, il vous listera l'ensemble des URL des pages HTML non-indexables.

Vous pourrez ainsi confirmer que les pages non-indexables sont bien celles que vous avez prévu. Dans le cas contraire, si l'outil liste des pages non-indexables qui devraient être indexables, autant dire que c'est une erreur plutôt grave...

Voici un exemple de rapport d'audit qui montre qu'un très grand nombre d'URL sont interdites d'indexation à cause d'une balise meta robots noindex (espérons pour son propriétaire que c'est voulu) :

URL non indexables à cause de la balise meta robots noindex

Voici un autre exemple de rapport d'audit similaire avec de nombreuses URL non indexables en raison d'une URL canonique différente de l'URL crawlée :

URL non indexables à cause de l'URL canonique

Rappel : obtenez la liste des pages indexables de votre site Lancez un audit RM Tech

En combien de temps Google supprimera mes pages ?

Maintenant que vous avez vérifié que la ou les pages à supprimer de Google sont "non-indexables", qu'elles soient encore en ligne ou pas, vous devez attendre...

En effet, la page ne sera désindexée qu'au moment où Google cherchera à y accéder (la crawler). Et encore, dans le cas d'une erreur 404, je vous ai indiqué que ça pouvait prendre beaucoup de temps...

Comment supprimer rapidement une page de Google ?

Supprimer une page grâce à Search Console

Si vous avez une seule page à supprimer, ou un petit nombre, le plus efficace est certainement de faire une demande explicite dans Google Search Console. Avant, il s'agissait de l'outil de suppression d'URL. Depuis septembre 2015, Google a légèrement changé les termes utilisés mais l'idée reste la même.

Saisie de l'URL à supprimer

Si cela vous intéresse, j'ai un dossier complet sur WebRankInfo : comment supprimer une page dans Search Console

Si par contre vous avez de nombreuses URL, il sera peut-être fastidieux voire impossible en pratique de passer par des demandes individuelles dans la Search Console.

Rassurez-vous, j'ai une astuce :-)

Elle n'est pas très connue et je vous l'offre ici : listez toutes les URL à désindexer dans un fichier sitemap ! Un simple fichier texte avec une URL par ligne suffit largement (encodage UTF-8), avec le nom de votre choix. Déclarez ce fichier dans Search Console (rubrique Exploration > Sitemaps) et patientez.

L'idée est qu'un sitemap ne sert pas à faire indexer des pages, mais à inciter Google à crawler des URL.

Si vous souhaitez d'autres conseils sur les sitemaps, lisez mon dossier sur WebRankInfo

Grâce à ce sitemap :

  • Google viendra assez rapidement crawler toutes ces URL
  • il constatera qu'elles doivent être désindexées
  • au fur et à mesure qu'il viendra les crawler, il les désindexera
  • en plus, à chaque fois que vous irez consulter Search Console, vous saurez combien d'URL de ce sitemap sont encore présentes dans l'index.

Dès que toutes les URL sont désindexées, vous pouvez supprimer ce sitemap.

Résumé à partager sur Twitter :

Peut-on utiliser le fichier robots.txt pour désindexer des pages ?

J'aurais bien voulu répondre "Non", pour la bonne raison que le fichier robots.txt ne gère pas l'indexation mais le crawl.

Concrètement, si vous ne faites qu'interdire le crawl d'une URL, Google ne viendra plus la crawler, c'est tout. Si jamais l'URL était indexée, il ne la désindexera pas ! Simplement, il ne viendra plus jamais la mettre à jour. C'est d'ailleurs une erreur classique, que vous pouvez partager sur Twitter :

Mais en réalité il y a 2 points à connaître, qui font que la réponse ne peut pas être simplement "Non".

D'abord, il est possible de supprimer une page via Search Console, et pour éviter qu'elle revienne à l'avenir dans l'index de Google, on la bloque dans le fichier robots.txt. Ce n'est donc pas le fait de la mettre dans le robots.txt qui la désindexe, mais la combinaison "demande de désindexation dans GSC + blocage dans robots.txt".

Ensuite, il se trouve que Google tient compte de la directive Noindex: située dans le fichier robots.txt, alors même qu'elle ne fait pas partie du standard et que Google n'en parle nulle part dans ses pages d'aide. D'ailleurs, j'ai déjà entendu John Mueller déconseiller de l'utiliser. Si vous souhaitez en savoir plus, consultez le dossier où j'ai testé le Noindex dans le robots.txt.

Besoin d'aide ?

J'ai passé pas mal de temps à rédiger ce dossier, ainsi qu'à organiser la logique de sa structure afin qu'il soit facile à comprendre.

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur Pinterest Olivier Duffez sur LinkedIn

Consultant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC,...). Il édite le site WebRankInfo qu'il a créé en 2002, devenu la + grande communauté francophone sur le SEO (+300.000 membres, 1,5 million de posts). Il est aussi cofondateur de Ranking Metrics, leader des formations webmarketing en France (SEO, AdWords, Analytics, réseaux sociaux) et éditrice de la plateforme MyRankingMetrics (crawler et audit SEO en ligne).

Article (Comment désindexer/supprimer des pages de Google ?) publié par WebRankInfo dans la rubrique Indexation Google. Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

14 commentaires

  • Jérôme a dit le

    Bonjour Olivier,

    Il y a également une autre option qui peut être utile pour désindexer une page via la Search Console : l'utilisation des paramètres d'URL.
    Je suis justement en train de faire un test et en cochant "Aucune URL" dans "Parmi les URL contenant ce paramètre, lesquelles doivent être explorées par Googlebot ?" certaines pages ne sont plus visibles dans les résultats de recherche.

    Qu'en penses-tu ?
    Merci ;)

  • Olivier Duffez a dit le

    Bonjour Jérôme
    Je suis contre l'utilisation de ce paramétrage, car ça ne semble pas si bien marcher que ça mais surtout car je considère que le pb doit être réglé sur le site. En utilisant cet outil, il faut le refaire pour chaque moteur (ce qui n'est pas une bonne idée à la base, même avec les parts de marché que l'on connait pour Google). Et ceux qui interviennent sur le site ne savent pas qui a configuré quoi et quand...

  • Nico a dit le

    Bonjour Olivier,

    Je vois souvent que le canonical se comporte comme une 302 : l'URL reste indexée, pas son contenu (/sa page).

    Lors de l'affichage du cache associé à cette URL, c'est l'URL et le contenu proposé dans le "canonical" qui est affiché à l'utilisateur.

    Du coup, avec du "canonical" on désindexe bien la page, mais pas son URL.

    Et si on veut désindexer un contenu assez rapidement, on peut jouer aussi avec du 410* (traité plus rapidement par Google que du 404) même si on maintient le contenu en place.

    * document supprimé

  • Olivier Duffez a dit le

    @nico : à la base, l'URL canonique ne sert pas réellement à faire désindexer, même si c'est censé être ce qui arrive au final. C'est utile aux cas ou plusieurs URL affichent le même contenu, ou quasiment le même.

  • UsagiYojimbo a dit le

    De manière à demander la désindexation d'un lot de pages, il est aussi possible d'utiliser le plugin iMacro pour automatiser la demander de suppression d'une liste d'url incluse dans un fichier csv.

  • Alexandre Hiraux a dit le

    Bonjour,
    @UsagiYojimbo, je me permets de poster un commentaire suite à votre message. J'ai essayé la suppression d'un lot de pages via le plugin iMacros mais le process de suppression d'url sur la search console n'est pas complété par la macro utilisée. Je dois confirmer l'envoi de la demande de suppression. Ci-dessous la macro utilisée :
    VERSION BUILD=7500718 RECORDER=FX
    SET !DATASOURCE C:\DOSSIER\VERS\LE\FICHIER\url-to-remove.csv
    SET !DATASOURCE_COLUMNS 1
    SET !TIMEOUT_STEP 0
    SET !ERRORIGNORE YES
    SET !EXTRACT_TEST_POPUP YES
    SET !LOOP 1
    TAB T=1
    URL GOTO=https://www.google.com/webmasters/tools/url-removal?hl=fr&siteUrl=***URL_DU_SITE***
    TAG POS=2 TYPE=DIV ATTR=TXT:Nouvelledemandedesuppression
    TAG POS=1 TYPE=INPUT:TEXT FORM=NAME:newremovalform ATTR=ID:urlt CONTENT={{!COL1}}
    TAG POS=1 TYPE=INPUT:BUTTON FORM=ID:newremovalform ATTR=NAME:urlt.submitButton&&VALUE:Continuer
    TAG POS=1 TYPE=SELECT FORM=ACTION:/webmasters/tools/removals-submit-ac?hl=fr&siteUrl=***URL_DU_SITE*** ATTR=NAME:removalmethod CONTENT=%DIRECTORY
    TAG POS=1 TYPE=INPUT:SUBMIT FORM=ID:the-form ATTR=ID:submit-button

    J'ai trouvé cette macro sur la toile. La search console a surement évoluée, ou des sécurités ont été ajoutées. J'ai vu dans le code source un security token.

    Pourriez vous me dire si vous voyez qqc d'erroné dans la macro ou si il manque qqc ?

    Merci par avance. Et Bonne Année 2016 à tous.

  • Nonal a dit le

    @Alexandre :
    1/ je ne te recommande pas de continuer... il est très facile pour Google de voir ce que tu fais ;) et ça va contre ses consignes...

    2/ pour contourner ton problème, il te faut passer des paramètres d'attente (une ou deux secondes) entre les actions. Ce script se jouait bien mais comme Google s'en est rendu compte il a fait ce qu'il faut. Ma solution marchait (j'ai eu à sortir quelques dizaines d'URL il y a un an) mais si tu as trop d'URLs à virer, je te renvois au premier point ;)

    Bon courage
    Arnaud

  • Newki75 a dit le

    Bonjour Olivier,

    Je ne comprends pas l'astuce du fichier sitemap pour demander à désindexer les pages, pouvez-vous développer ? Google viendra crawler les URL mais comment verra t-il qu'il faut les désindexer ?

  • Olivier Duffez a dit le

    @ Newki75 : comme expliqué dans l'article, pour désindexer une page, il faut la mettre en situation d'être désindexée, puis attendre que Google la crawle (ce qui est accéléré avec un sitemap)

  • domi5529 a dit le

    Bonjour Olivier,
    je suis vraiment intéressé par ta solution du sitemap. Etant assez "jeune" dans le référencement, aurais-tu un tuto à proposer pour concrètement réaliser cette sitemap?
    Merci d'avance.

  • Olivier Duffez a dit le

    Pour faire un sitemap, il faut créer un script sur-mesure, à moins que le site soit basé sur un CMS (dans ce cas un plugin peut le faire). si besoin de plus d'infos, merci de créer une discussion dans le forum WRI

  • Newki75 a dit le

    Je vois bien comment signaler ds le robots.txt qu'une page ne doit pas être crawlée mais pour moi le sitemap indique les pages à crawler, pas à désindexer. Il faut mettre une fréquence à 0 ?

  • Olivier Duffez a dit le

    En effet, le sitemap indique les URL à crawler : la notion d'indexation n'est pas liée au sitemap.
    Si on incite Googlebot à crawler une page contenant une balise meta robots noindex, il va venir la crawler et constater qu'on ne veut pas l'indexer.

  • Newki75 a dit le

    Ah d'accord merci Olivier !

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Annonces Google

Catégories des dossiers

Consultez les dossiers par thématiques :

Annonces Google

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google AdWords et Analytics ainsi qu'aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (Dossier possible OPCA, DIF...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).

Hébergement web

Hébergement web mutualisé et dédié

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.

A partir de 3€ HT/mois.