Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Vérifiez les balises meta robots noindex partout dans toutes vos pages !

Vous pensiez qu'on ne trouve une balise meta robots noindex que dans l'entête HTML ? Sachez qu'elles trainent parfois (par erreur) dans le reste de la page et que Google en tient compte. Vérifiez si votre site n'a pas ce problème, comme celui pris en exemple dans cet article.

Dossier mis à jour le 17/12/2018 pour le cas des directives contradictoires index+noindex, publié initialement le 22/06/2015

Le problème d'une meta robots noindex dans le corps d'une page HTML

Google tient compte du noindex en dehors de <head>

Je suis tombé sur ce conseil de Gary Illyes

Please be mindful with noindex directives and remember that most search engines will honour it, even if it's in the BODY element.

noindex dans body Gary Illyes

Il indique (rappelle pour certains d'entre nous) que Google tient compte d'une balise meta robots même si elle est placée en dehors de l'entête HTML (donc entre les balises <head> et </head>). Par exemple, si une page contient ceci quelque part entre <body> et </body>, alors Google ne l'indexera pas :

<meta name="robots" content="noindex">

Si jamais la page était indexée et qu'avec une mise à jour ce genre de balise est ajoutée, alors après le prochain crawl de Google, elle sera certainement désindexée.

Remarque : si besoin, relisez la syntaxe de cette balise et toutes ses valeurs possibles. Par exemple, le problème sera identique avec une balise meta robots "none".

Attention, on parle bien d'une balise intégrée dans le code HTML, pas du texte comme vous pouvez le lire ici dans mon article...

Google privilégie noindex à index si les 2 sont indiqués !

Attention noindex nofollow

En règle générale, il n'y a pas de raison de fournir 2 directives contradictoires pour une même page, par exemple "index" et "noindex". Mais l'erreur est humaine ! Ceci peut très bien vous arriver un jour.

Selon John Mueller (source), Google utilise le paramètre le plus restrictif que vous avez sur la page :

  • s'il y a à la fois "index" et "noindex", c'est "noindex" qui est pris en compte
  • s'il y a à la fois "follow" et "nofollow", c'est "nofollow" qui est pris en compte

En plus, toujours selon lui, Google tient compte du code final obtenu après interprétation du Javascript au chargement de la page. Donc si un script JS modifie dynamiquement le HTML initial pour ajouter "noindex", alors Google considèrera que la page ne doit pas/plus être indexée.

Comment vérifier si vos pages ont ce problème

En lisant le début de cet article, vous avez sans doute eu le réflexe de penser que cela ne vous concerne pas, car quand vous avez besoin de cette balise, vous la mettez toujours dans l'entête HTML. Ceci suppose que vous ne faites jamais d'erreur, ni tous ceux qui interviennent sur votre site, ni tous les plugins, extensions et autres codes de votre CMS.

Si vous avez un doute sur une page précise, ouvrez le code HTML et cherchez si ce genre de balise se balade là où elle ne devrait pas.

Si vous souhaitez le vérifier sur 100% des pages de votre site, à moins d'avoir un petit site, je doute que la méthode manuelle vous plaise.

Je vous propose donc de tester mon outil RMTech qui fera ça fort bien (ainsi que plein d'autres choses d'ailleurs). Même la version gratuite vous alertera si vous faites de nombreux liens internes vers des pages pourtant interdites d'indexation. Seuls les changements faits en Javascript ne seront pas repérés.

Justement, une semaine avant le rappel de Gary sur ce sujet, un client de ma plateforme My Ranking Metrics a eu la surprise de constater que 98% des pages de son site ecommerce n'étaient pas indexables ! Autant vous dire que ce fut une surprise pour lui, en tout cas ce n'était pas voulu...

Il a été alerté par la synthèse de son rapport d'audit (version complète) :

Audit RMTech : pages non indexables
Le tableau de synthèse de l'audit RMTech indique un taux anormalement élevé de pages non indexables

Ce problème est ensuite détaillé un peu plus bas :

Audit RMTech : pages non indexables (détail)
Détail des pages non indexables : pour cause de robots noindex ou d'URL canoniques

Que certaines URL crawlées aient une autre URL canonique, pourquoi pas (encore qu'il y en a beaucoup dans cet exemple). Mais autant de pages interdites d'indexation, c'est louche !

Un clic sur le fichier annexe lui a permis de découvrir rapidement qu'une grande partie des pages (listings et fiches produits) étaient concernées. Concrètement, il avait justement lancé RMTech car depuis une semaine environ, son trafic SEO était en forte décroissance. Cela correspondait à une mise à jour de son site, mais il n'avait pas encore trouvé la cause du problème.

En fait, certains produits étaient mis en avant sous forme de vignettes, et au survol de la souris on disposait d'informations supplémentaires. Celles-ci étaient regroupées dans un <div> qui pour une raison obscure contenait une balise meta robots noindex. Voici un extrait de son code :

meta robots noindex dans body
La page contient par erreur une balise meta robots noindex dans body

Il lui avait simplement fallu lancer lui-même l'audit SEO en ligne pour trouver le problème - et la solution. Les autres erreurs relevées par RMTech furent pour lui "du bonus", tout comme les suggestions d'optimisation.

Alors, qu'attendez-vous pour tester RMTech dès maintenant sur votre site, celui de vos clients ou même prospects ?

Cet article vous a-t-il plu ?

Note : 3.9 (7 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

6 commentaires

Moger

Bonjour

Question qui semblera sans doute débile à un connaisseur, mais malgré moult recherches, je ne parviens pas à y répondre. Je précise que je suis débutant en matière de SEO, balises et autres joyeusetés.

Je veux éviter l'indexation de pages spécifiques de mon site (sur wordpress). Je vois à gauche et à droite qu'on conseille plutôt de rajouter une balise dans le code de la page. Très bien. Le hic, c'est que je ne pige par OÙ je peux ajouter une ligne dans le code.

Où je dois aller dans wordpress pour accéder au code de la page en question (je compte le faire pour plusieurs pages) pour pouvoir ajouter une ligne audit code, et sauver après.

Désolé pour cette question "mais c'est tout con, suffit de...", mais là je bloque. Bien à vous, M. Gérard

Répondre
Olivier Duffez

@Moger : WordPress ne permet pas de le faire sans ajouter un plugin... Un des plus connus, Yoast SEO, permet de le faire.

Répondre
Mat

On est d'accord sur le principe. Prenons l'exemple du site de zalando, un exemple parfait de maitrise du référencement à mon sens. Pour les pantalons homme, il y a des dizaines de pages de produit, et on remarque que toutes les pages de 2 à 23 sont en Noindex, follow (sauf la 1 évidemment) pour éviter que le texte sur la page ne soit dupliqué.

Répondre
Olivier Duffez

OK, mais ça reste une mauvaise chose d'avoir plein d'URL en noindex, même de la pagination.

Répondre
Mat

Bonjour,
Un site, comme un blog par exemple, peut détenir des centaines de pages. Surtout si des dizaines et des dizaines d'articles d'une catégorie se retrouvent en page 2, 3, 4.... Si le webmaster a décidé, pour éviter le DC, de placer ces pages 2, 3, 4 en noindex, follow, il se peut que le rapport d'audit montre effectivement un taux de pages non indexables très élevé, mais cela serait normal pour ne pas pénaliser son référencement non ?

Répondre
Olivier Duffez

En effet, dans ce cas il aura beaucoup de pages en noindex mais avant que ça ne représente un fort pourcentage de l'ensemble de son site, il y a de la marge normalement. D'ailleurs, il faut éviter la pagination car elle est très mauvaise pour le référencement.

Répondre