Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Comment désindexer des pages de Google ? Le tuto ultra complet !

Il est bien plus courant qu’on ne l’imagine d’avoir besoin de désindexer des pages de Google, c’est-à-dire de les supprimer de l’index. Ceci permet de nettoyer le site et parfois de sortir d’une pénalité. Voici comment faire…

Comment supprimer des pages de Google

Ce tuto vous expliquer comment enlever une page de Google, c’est-à-dire la supprimer de son index. Il doit s’agir de votre propre site.

Il y a de nombreux cas de figure et ce tuto les décrit a priori tous. Si vous êtes dans un cas particulier non listé, n’hésite pas à me l’indiquer ! Et si vous ne vous en sortez pas tout seul, contactez-moi pour du consulting.

A voir aussi : comment supprimer son historique de recherche sur Google ?

Pourquoi faut-il parfois désindexer des pages ?

Il y a plusieurs situations :

  • vous n’aviez pas réalisé que certaines pages étaient indexées – et ce n’était pas prévu
  • certaines pages créent du contenu dupliqué interne et vous souhaitez vous en débarrasser
  • vous estimez que des pages (de faible qualité) vous font prendre trop de risques avec l’algorithme de Google (ou même avec l’équipe qualité de la recherche si elle venait à passer par là) et vous souhaitez donc les supprimer de Google
  • une ou plusieurs pages vous posent des problèmes juridiques et vous devez les retirer au plus vite de votre site et de Google
  • etc.

Si vous êtes déjà venu à ma formation, vous savez que je décris le concept de masse noire (des pages que Google crawle et parfois indexe et qui ne devraient pas l’être). Si la part de la masse noire devient trop importante sur votre site, il est grand temps de faire le ménage !

Et si vous n’êtes pas encore venu, consultez le programme détaillé !

Quelle différence entre pages indexables et pages indexées ?

Une page indexable est une page qui respecte toutes les conditions techniques pour qu’elle soit indexée.

Une page indexée est une page que Google a crawlée et « décidé » d’ajouter à son index (il arrive que Google crawle une page indexable et ne l’indexe pas malgré tout).

Je rappelle que pour être indexable, une page doit évidemment être également « crawlable » !

Une page crawlable est une page autorisée au crawl : en clair, non bloquée dans le fichier robots.txt même s’il existe un cas particulier que j’expose plus loin. Elle doit également être accessible (à Google) et d’un format pris en charge.

A l’inverse, une page non-indexable est une page pour laquelle on indique à Google qu’il ne doit pas l’indexer. Comme vous l’avez deviné, pour désindexer une page de Google, vous devez suivre 2 étapes :

  1. la rendre non-indexable pour Google
  2. puis la désindexer

Je détaille ces 2 étapes ci-après.

Envie de faire la liste des pages crawlables et indexables de votre site ? Lancez un audit RM Tech

Comment rendre une page non-indexable ?

La première question à vous poser est sans doute la suivante : la page que vous souhaitez désindexer doit-elle rester consultable par les internautes ?

Comment désindexer une page toujours accessible aux internautes ?

Dans ce cas de figure, vous devez choisir parmi ces solutions (les liens donnent les détails si besoin) :

  • ajouter une balise meta robots noindex (ou none) permet d’indiquer aux moteurs que vous ne souhaitez pas qu’elle soit indexée. Si jamais elle est actuellement indexée, elle sera désindexée quand Google détectera cette balise dans la page ; si elle n’est pas encore indexée, alors elle ne le sera pas non plus à l’avenir (il s’agit donc de prévention)
  • envoyer un entête HTTP spécial (X-Robots-Tag) : c’est la même idée que la balise meta robots noindex. Elle s’impose quand le document à désindexer n’est pas une page HTML, car dans ce cas vous ne pouvez pas ajouter de balises meta (PDF, documents Word ou Excel, etc.).
  • définir une URL canonique différente de l’URL de la page à désindexer. Par exemple, une fiche produit est accessible aussi bien à l’URL A qu’à l’URL temporaire B pour cause de promotion. Vous pouvez définir dans la page B une URL canonique faisant référence à A. Attention, l’URL canonique est un indicateur que vous fournissez à Google, lequel ne s’engage pas à le respecter dans 100% des cas.

Ensuite, soit vous attendez que Google désindexe la page, soit vous accélérez le processus (voir ci-dessous).

Comme je sais que vous avez bien suivi mes explications, vous avez compris que votre page doit être crawlable, n’est-ce pas ? Car si vous interdisez à Google de la crawler, il ne pourra pas constater que vous demandez qu’elle soit désindexée. Je discute de ce cas de figure dans ce dossier.

#SEO mettre une meta robots noindex ET bloquer dans robots.txt = Google ne supprime pas la pageClick to Tweet

Comment désindexer une page qui n’est plus accessible ?

Dans ce cas de figure, vous devez choisir parmi ces solutions les plus courantes :

  • envoyer un code HTTP 404 ou 410 : ceci indique à Google que la page n’existe pas (404) ou plus (410). Le code 410 semble plus efficace, car avec un code 404 il peut se passer plusieurs mois avant que Google décide enfin de désindexer la page ! Si vous êtes perdus dans tous ces codes HTTP, consultez ma liste.
  • envoyer un entête HTTP spécial (X-Robots-Tag) : c’est la même idée que la balise meta robots noindex. Elle s’impose quand le document à désindexer n’est pas une page HTML, car dans ce cas vous ne pouvez pas ajouter de balises meta (PDF, documents Word ou Excel, etc.).
  • rediriger en 301 vers une autre page : on utilise cette méthode quand on pense que l’URL à supprimer avait obtenu des (bons) backlinks (par exemple en ecommerce ou site de petites annonces). Pour éviter d’en perdre le bénéfice, il faut mettre en place une redirection permanente. Notez que si vous faites ça sur une grosse quantité d’URL, il est probable que Google considère ça comme des soft 404 et qu’au final les pages ne soient pas désindexées.

Ensuite, soit vous attendez que Google désindexe la page (ça peut être très long), soit vous accélérez le processus (voir ci-dessous).

Comment vérifier qu’une page est non-indexable ?

Vous pouvez utiliser différents outils pour vérifier que vous êtes bien dans une des situations exposées précédemment.

Je vous recommande néanmoins de passer par un logiciel spécialisé (comme RM Tech, celui que j’ai conçu chez My Ranking Metrics). Après une analyse exhaustive de votre site, il vous listera l’ensemble des URL des pages HTML non-indexables.

Vous pourrez ainsi confirmer que les pages non-indexables sont bien celles que vous avez prévu. Dans le cas contraire, si l’outil liste des pages non-indexables qui devraient être indexables, autant dire que c’est une erreur plutôt grave…

Voici un exemple de rapport d’audit qui montre qu’un très grand nombre d’URL sont interdites d’indexation à cause d’une balise meta robots noindex (espérons pour son propriétaire que c’est voulu) :

URL non indexables à cause de la balise meta robots noindex

Voici un autre exemple de rapport d’audit similaire avec de nombreuses URL non indexables en raison d’une URL canonique différente de l’URL crawlée :

URL non indexables à cause de l'URL canonique
Rappel : obtenez la liste des pages indexables de votre site Lancez un audit RM Tech

En combien de temps Google supprimera mes pages ?

Maintenant que vous avez vérifié que la ou les pages à supprimer de Google sont « non-indexables », qu’elles soient encore en ligne ou pas, vous devez attendre…

En effet, la page ne sera désindexée qu’au moment où Google cherchera à y accéder (la crawler). Et encore, dans le cas d’une erreur 404, je vous ai indiqué que ça pouvait prendre beaucoup de temps…

Comment supprimer rapidement une page de Google ?

Supprimer une page grâce à Search Console

Si vous avez une seule page à supprimer, ou un petit nombre, le plus efficace est certainement de faire une demande explicite dans Google Search Console. Avant, il s’agissait de l’outil de suppression d’URL. Depuis septembre 2015, Google a légèrement changé les termes utilisés mais l’idée reste la même.

Saisie de l'URL à supprimer
Si cela vous intéresse, j’ai un dossier complet sur WebRankInfo : comment supprimer une page dans Search Console

Si par contre vous avez de nombreuses URL, il sera peut-être fastidieux voire impossible en pratique de passer par des demandes individuelles dans la Search Console.

Rassurez-vous, j’ai une astuce :-)

Elle n’est pas très connue et je vous l’offre ici : listez toutes les URL à désindexer dans un fichier sitemap ! Un simple fichier texte avec une URL par ligne suffit largement (encodage UTF-8), avec le nom de votre choix. Déclarez ce fichier dans Search Console (rubrique Exploration > Sitemaps) et patientez.

L’idée est qu’un sitemap ne sert pas à faire indexer des pages, mais à inciter Google à crawler des URL.

Si vous souhaitez d’autres conseils sur les sitemaps, lisez mon dossier sur WebRankInfo

Grâce à ce sitemap :

  • Google viendra assez rapidement crawler toutes ces URL
  • il constatera qu’elles doivent être désindexées
  • au fur et à mesure qu’il viendra les crawler, il les désindexera
  • en plus, à chaque fois que vous irez consulter Search Console, vous saurez combien d’URL de ce sitemap sont encore présentes dans l’index.

Dès que toutes les URL sont désindexées, vous pouvez supprimer ce sitemap.

Résumé à partager sur Twitter :

Astuce #SEO : un sitemap peut lister des URL à faire désindexer, ça fait gagner du temps !Click to Tweet

Peut-on utiliser le fichier robots.txt pour désindexer des pages ?

J’aurais bien voulu répondre « Non », pour la bonne raison que le fichier robots.txt ne gère pas l’indexation mais le crawl.

Concrètement, si vous ne faites qu’interdire le crawl d’une URL, Google ne viendra plus la crawler, c’est tout. Si jamais l’URL était indexée, il ne la désindexera pas ! Simplement, il ne viendra plus jamais la mettre à jour. C’est d’ailleurs une erreur classique, que vous pouvez partager sur Twitter :

#SEO Pour désindexer une page, n'utilisez pas le fichier robots.txt qui n'est pas prévu pour ça !Click to Tweet

Mais en réalité il y a 2 points à connaître, qui font que la réponse ne peut pas être simplement « Non ».

D’abord, il est possible de supprimer une page via Search Console, et pour éviter qu’elle revienne à l’avenir dans l’index de Google, on la bloque dans le fichier robots.txt. Ce n’est donc pas le fait de la mettre dans le robots.txt qui la désindexe, mais la combinaison « demande de désindexation dans GSC + blocage dans robots.txt ».

Ensuite, il se trouve que Google tient compte de la directive Noindex: située dans le fichier robots.txt, alors même qu’elle ne fait pas partie du standard et que Google n’en parle nulle part dans ses pages d’aide. D’ailleurs, j’ai déjà entendu John Mueller déconseiller de l’utiliser. Si vous souhaitez en savoir plus, consultez le dossier où j’ai testé le Noindex dans le robots.txt.

Besoin d’aide ?

J’ai passé pas mal de temps à rédiger ce dossier, ainsi qu’à organiser la logique de sa structure afin qu’il soit facile à comprendre.

Cet article vous a-t-il plu ?

Note : 4.8 (6 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

28 commentaires

Jérôme

Bonjour Olivier,

Il y a également une autre option qui peut être utile pour désindexer une page via la Search Console : l’utilisation des paramètres d’URL.
Je suis justement en train de faire un test et en cochant « Aucune URL » dans « Parmi les URL contenant ce paramètre, lesquelles doivent être explorées par Googlebot ? » certaines pages ne sont plus visibles dans les résultats de recherche.

Qu’en penses-tu ?
Merci ;)

Répondre
Olivier Duffez

Bonjour Jérôme
Je suis contre l’utilisation de ce paramétrage, car ça ne semble pas si bien marcher que ça mais surtout car je considère que le pb doit être réglé sur le site. En utilisant cet outil, il faut le refaire pour chaque moteur (ce qui n’est pas une bonne idée à la base, même avec les parts de marché que l’on connait pour Google). Et ceux qui interviennent sur le site ne savent pas qui a configuré quoi et quand…

Répondre
Nico

Bonjour Olivier,

Je vois souvent que le canonical se comporte comme une 302 : l’URL reste indexée, pas son contenu (/sa page).

Lors de l’affichage du cache associé à cette URL, c’est l’URL et le contenu proposé dans le « canonical » qui est affiché à l’utilisateur.

Du coup, avec du « canonical » on désindexe bien la page, mais pas son URL.

Et si on veut désindexer un contenu assez rapidement, on peut jouer aussi avec du 410* (traité plus rapidement par Google que du 404) même si on maintient le contenu en place.

* document supprimé

Répondre
Olivier Duffez

@nico : à la base, l’URL canonique ne sert pas réellement à faire désindexer, même si c’est censé être ce qui arrive au final. C’est utile aux cas ou plusieurs URL affichent le même contenu, ou quasiment le même.

Répondre
UsagiYojimbo

De manière à demander la désindexation d’un lot de pages, il est aussi possible d’utiliser le plugin iMacro pour automatiser la demander de suppression d’une liste d’url incluse dans un fichier csv.

Répondre
Alexandre Hiraux

Bonjour,
@UsagiYojimbo, je me permets de poster un commentaire suite à votre message. J’ai essayé la suppression d’un lot de pages via le plugin iMacros mais le process de suppression d’url sur la search console n’est pas complété par la macro utilisée. Je dois confirmer l’envoi de la demande de suppression. Ci-dessous la macro utilisée :
VERSION BUILD=7500718 RECORDER=FX
SET !DATASOURCE C:\DOSSIER\VERS\LE\FICHIER\url-to-remove.csv
SET !DATASOURCE_COLUMNS 1
SET !TIMEOUT_STEP 0
SET !ERRORIGNORE YES
SET !EXTRACT_TEST_POPUP YES
SET !LOOP 1
TAB T=1
URL GOTO=https://www.google.com/webmasters/tools/url-removal?hl=fr&siteUrl=***URL_DU_SITE***
TAG POS=2 TYPE=DIV ATTR=TXT:Nouvelledemandedesuppression
TAG POS=1 TYPE=INPUT:TEXT FORM=NAME:newremovalform ATTR=ID:urlt CONTENT={{!COL1}}
TAG POS=1 TYPE=INPUT:BUTTON FORM=ID:newremovalform ATTR=NAME:urlt.submitButton&&VALUE:Continuer
TAG POS=1 TYPE=SELECT FORM=ACTION:/webmasters/tools/removals-submit-ac?hl=fr&siteUrl=***URL_DU_SITE*** ATTR=NAME:removalmethod CONTENT=%DIRECTORY
TAG POS=1 TYPE=INPUT:SUBMIT FORM=ID:the-form ATTR=ID:submit-button

J’ai trouvé cette macro sur la toile. La search console a surement évoluée, ou des sécurités ont été ajoutées. J’ai vu dans le code source un security token.

Pourriez vous me dire si vous voyez qqc d’erroné dans la macro ou si il manque qqc ?

Merci par avance. Et Bonne Année 2016 à tous.

Répondre
Nonal

@Alexandre :
1/ je ne te recommande pas de continuer… il est très facile pour Google de voir ce que tu fais ;) et ça va contre ses consignes…

2/ pour contourner ton problème, il te faut passer des paramètres d’attente (une ou deux secondes) entre les actions. Ce script se jouait bien mais comme Google s’en est rendu compte il a fait ce qu’il faut. Ma solution marchait (j’ai eu à sortir quelques dizaines d’URL il y a un an) mais si tu as trop d’URLs à virer, je te renvois au premier point ;)

Bon courage
Arnaud

Répondre
Newki75

Bonjour Olivier,

Je ne comprends pas l’astuce du fichier sitemap pour demander à désindexer les pages, pouvez-vous développer ? Google viendra crawler les URL mais comment verra t-il qu’il faut les désindexer ?

Répondre
Olivier Duffez

@ Newki75 : comme expliqué dans l’article, pour désindexer une page, il faut la mettre en situation d’être désindexée, puis attendre que Google la crawle (ce qui est accéléré avec un sitemap)

Répondre
domi5529

Bonjour Olivier,
je suis vraiment intéressé par ta solution du sitemap. Etant assez « jeune » dans le référencement, aurais-tu un tuto à proposer pour concrètement réaliser cette sitemap?
Merci d’avance.

Répondre
Olivier Duffez

Pour faire un sitemap, il faut créer un script sur-mesure, à moins que le site soit basé sur un CMS (dans ce cas un plugin peut le faire). si besoin de plus d’infos, merci de créer une discussion dans le forum WRI

Répondre
Newki75

Je vois bien comment signaler ds le robots.txt qu’une page ne doit pas être crawlée mais pour moi le sitemap indique les pages à crawler, pas à désindexer. Il faut mettre une fréquence à 0 ?

Répondre
Olivier Duffez

En effet, le sitemap indique les URL à crawler : la notion d’indexation n’est pas liée au sitemap.
Si on incite Googlebot à crawler une page contenant une balise meta robots noindex, il va venir la crawler et constater qu’on ne veut pas l’indexer.

Répondre
Newki75

Ah d’accord merci Olivier !

Répondre
Christelle

Bonjour Olivier, Bonjour les gens qui suivent Webrankinfo et cette page en particulier.
Je m’interroge à désindexer une page en particulier, j’ai besoin d’avis sur le sujet

J’ai une iframe que j’utilise dans des guides conseils :
http://www.lesartisansdemenageurs.fr/devis-demenagement-iframe-step1.html?provenance=les-artisans-demenageurs

C’est une page indexée, on la retrouve bien dans le SERP.
Je préférais renvoyer mon trafic de cette page vers une page qui transforme mieux.Une page « complète » :
http://www.lesartisansdemenageurs.fr/devis-demenagement.html

Comme l’iframe est intégrée dans tous mes guides, je ne peux pas faire de 301, sinon sur mes guides ça va afficher la page « complète » la place de l’i frame.
Je m’interroge à mettre un no-index pour cette page « iframe », quitte à ce que le trafic soit perdu (idéalement récupéré par mon autre page « complète »).
Sur Google analytics, j’ai un taux de rebond supérieur à 40 % et une durée de visite inférieur à sec sur le la page avec que l’iframe. Je ne sais pas si ça vient de l’affichage dans les guides (les robots passent du guide à l’iframe) ou si j’ai vraiment ces chiffres là pour la page indexée de l’iframe, dans ce cas il faut que je trouve une solution (!).

Merci de votre aide,

Christelle

Répondre
Olivier Duffez

on pourrait mettre la page « complète » en tant qu’URL canonique sur la page iframe

Répondre
ripa31

Bonjour,

Je suis pas un pro du referencement.
J’ai eu un souci de hacking en juillet 2016 sur mon site en 2 langues, ecommerce, 400 produits.
L’infra et le site ont été purgé de toutes ces URLs indesirables.
Par dessus le marché le pirate a pris la main sur ma GSC et généré des sitesmaps à sa sauce.

Je me retrouve avec 186 000 URLs introuvables (11000 sur mon domaine ou j’ai l’explication) et 170 000 pages en 404 que j’aimerais supprimé définitivement.,

La méthode décrite dans cette page a savoir un sitemap spécifique en txt avec la liste des URL pour forcer GG a crawler ses URL pour les supprimer est elle tjrs d’actualité ?
Merci par avance

Répondre
Olivier Duffez

@ripa31 : oui, cet article est bien à jour :-)
Si les URL à désindexer sont toutes dans un même répertoire, il suffit de l’indiquer dans l’outil de désindexation de Search Console.

Répondre
poppins

Bonjour Olivier. Merci pour cet article très instructif…
Au final quelle « méthode » recommanderiez-vous pour désindexer une URL:

– balise noindex (puis blocage du crawl dans le robots.txt pour éviter qu’elle soit re-indexée un jour ? Ou bien est-ce inutile car avec une noindex par définition aucun risque de re-indexation future ?)

– demande de suppression dans Search console puis blocage dans le robots.txt
Nb : pour Search Console, GG insiste désormais sur le fait qu’il s’agit d’une suppression temporaire…

Merci :-)

PS : je parlais d’une page en 404

Répondre
Olivier Duffez

Si la page est en 404, on ne peut pas lui mettre de balise meta robots noindex, donc il faut attendre que Google la désindexe tout seul, ce qui peut être long. Pour ne pas attendre, la seule solution efficace est une demande manuelle et individuelle (par URL ou répertoire) dans Search Console.

Répondre
poppins

OK merci. Et on bloque dans le robots.txt au même moment (toujours dans le cas d’une page 404) ? Ou est-il préférable d’attendre que la demande dans Search console soit prise en compte (cad que la page soit désindexée) ?

Et si la page n’est pas en 404 : noindex ou noindex + blocage robots.txt ?

Cdlt,

Répondre
Olivier Duffez

Si la page est en 404 actuellement (mais qu’elle a été indexée), il suffit d’une demande de désindexation dans Search Console, et rien d’autre.
Si la page n’est pas en 404, c’est détaillé dans mon article :-)

Répondre
Patrice

Bonjour,

J’ai une propriété principale (https sans les www) où j’ai mes pages indexées.

Par contre, j’ai une page qui est indexée aussi sous une autre propriété (https avec les www).

Ma question:

Est-ce un problème, et si oui, que faire?

Merci d’avance :)

Patrice

Répondre
Olivier Duffez

non ce n’est pas dramatique, mais autant essayer de le corriger.
Y a-t-il une redirection 301 de cette URL vers celle qui correspond réellement à cette page ?
comment avez-vous identifié que cette URL est indexée ?

Répondre
Patrice

Bonjour,

Je l’ai vu dans la Search Console.

Oui, il y a une redirection 301.

En fait, avant j’avais mon site (un onepage), sur l’url avec les 3 www.

Puis, je suis passé à la version sans les www.

J’ai tout redirigé sur cette version et mis comme domaine préféré.

J’ai déclaré toutes les versions de mon site.

Mais, cette page reste indexée aussi avec la version www, alors que tout passe sur la version sans les www.

Merci :)

Répondre
Olivier Duffez

Peut-être que cette URL a bien plus de backlinks que la nouvelle. Je me demande pourquoi avoir fait ce changement de suppression des www

Répondre
Patrice

Bonjour,

Je préfère avoir une url sans www.

Préférence esthétique ;)

Une solution, pour remédier au problème?

Merci d’avance.

Répondre
Adevis.fr

Merci pour l’article Top !

Répondre