Créateur de WebRankInfo,
consultant en référencement

SEO : 27 erreurs qui peuvent désindexer vos pages sans que vous vous en rendiez compte

Il existe pas mal de cas où vous pouvez faire une erreur avec des instructions noindex ou des URL canoniques. Consultez cet article pour vérifier que ce n'est pas votre cas...

Publié le 09/05/2016. Auteur : Olivier Duffez

Tweetez

Partagez

Erreurs SEO indexation — Cet article liste de nombreuses erreurs à éviter pour ne pas faire désindexer des pages sans le vouloir

J'organise ce dossier en 2 parties qui correspondent aux 2 types d'erreur qui peuvent mener à la désindexation d'une page :

Vous allez voir qu'il y a bien plus de possibilités de se tromper que vous l'imaginez... Mais rassurez-vous, j'ai 3 propositions pour vous aider.

Mes 3 propositions pour vous aider

L'audit RM Tech (gratuit et payant)

Si votre site est important pour vos activités en ligne (et votre chiffre d'affaires), les fondamentaux du référencement doivent être en place. A moins d'avoir un temps fou devant vous et un tout petit site, il vous faut un outil pour surveiller tout ça. Et ça tombe bien car celui que j'ai développé chez Ranking Metrics (dont je suis co-fondateur) sait tout repérer !

Vérifiez qu'aucune erreur (noindex, canonique) n'est présente sur votre site : lancez un audit RM Tech

Le tuto vidéo (payant)

Si vous souhaitez des explications détaillées pour savoir corriger vous-même les problèmes de crawl et d'indexation (pages non indexables), je propose un tuto vidéo qui complète l'audit RM Tech.

Consultez la page de détail : tuto Crawl et Indexation

La formation SEO (payante)

Pour aller bien au-delà, apprendre une méthodologie bien rodée, obtenir des réponses à vos questions spécifiques et encore plus, participez à ma formation au référencement naturel !

Envie d'apprendre une bonne méthode SEO ? participez à ma formation

7 erreurs à éviter sur l'instruction robots noindex

L'instruction robots noindex indique aux robots que vous ne souhaitez pas qu'ils indexent la page qui la contient. Elle peut être indiquée par une balise meta robots ou par l'entête HTTP (on parle du code X-Robots-Tag).

Voici les erreurs à éviter avec la meta robots ou X-Robots-Tag (A, B, C sont des URL) :

Vous avez une meta robots noindex ailleurs que dans <head>, par exemple ajoutée par un plugin (défectueux) ou insérée de façon malintentionnée dans les commentaires. Même si Google recommande de mettre la balise meta dans l'entête HTML, en pratique si vous l'avez dans <body> il est probable que Google désindexera votre page.
Vous avez préparé une nouvelle rubrique du site et mis "par sécurité" une robots noindex. A la mise en ligne (en production), vous avez oublié d'enlever ce noindex, si bien que les nouvelles pages ne s'indexent jamais...
Vous traduisez petit à petit votre site, et tant qu'une page n'est pas entièrement traduite, vous mettez du noindex. Si vous ne l'enlevez pas une fois que la page est totalement traduite, elle ne pourra pas s'indexer !
Vous avez un site avec beaucoup de pages de listings (par exemple des annonces immobilières) et concrètement tous ces listings utilisent le script search.php, que ce soit pour lister des annonces correspondant à un critère ou pour les résultats de recherche via un formulaire. Vous savez qu'il ne faut pas faire indexer des pages de résultats de recherche interne (via des champs libres), donc vous avez mis une balise meta robots noindex dans search.php. En faisant comme ça, vos listings classiques ne pourront plus être indexés...
Vous avez lu des conseils pour vaincre l'algo Panda de Google, notamment l'astuce consistant à interdire l'indexation d'une discussion de forum tant qu'il n'y a pas de réponse. Si votre script est mal codé, vous risquez de ne plus avoir aucune page indexée dans votre forum...
A l'inverse, vous souhaitez faire désindexer une page et "pour être sûr que ça marche", vous bloquez à la fois l'indexation (avec une meta robots noindex) mais aussi le crawl (directive Disallow dans le fichier robots.txt). Dans ce cas, Google n'ira pas crawler votre page, si bien qu'il ne pourra pas constater la meta robots noindex et au final, la page restera indexée...
Vous souhaitez désindexer une page et vous ajoutez une balise <meta name="robots" content="no index">. En écrivant "no index" en 2 mots, les moteurs ne considèreront pas que vous souhaitez désindexer la page.

Si vous connaissez d'autres situations, merci de les indiquer dans les commentaires.

Dans le même genre, lisez les horreurs du référencement, un best of de ce qu'il ne faut pas faire en SEO...

Remarque : il existe plusieurs situations où il est justifié de désindexer des pages, par exemple pour nettoyer votre site des contenus de trop faible qualité. Si vous ne savez plus très bien comment désindexer proprement et rapidement des contenus, lisez mon dossier.

20 erreurs à éviter avec l'URL canonique

Il est possible d'indiquer aux moteurs de recherche quelle est l'URL officielle d'une page, celle sous laquelle il faut indexer la page. Dans le jargon du référencement, on appelle ça l'URL canonique.

Comment définir une URL canonique ? Si besoin : lisez mon tuto sur sa syntaxe.

Officiellement pour Google, l'URL canonique définie par le webmaster n'est qu'une indication et pas une obligation. L'aide en ligne parle de "préférence". Mais en pratique, une erreur sur l'URL canonique peut avoir des conséquences désastreuses.

Voici les erreurs à éviter avec l'URL canonique (A, B, C sont des URL) :

une même URL est indiquée comme canonique pour un très grand nombre de pages sur le site (pourtant ayant des contenus différents)
toutes les pages du site indiquent l'URL de la page d'accueil comme URL canonique (c'est l'une des pires erreurs, lisez cet article en anglais à ce sujet)
plusieurs URL canoniques sont indiquées en chaine (A indique B, qui indique C, etc.)
A indique B comme canonique, mais B redirige vers A
A indique B comme canonique, et B indique A comme canonique
aucune URL canonique n'est indiquée pour une page qui est appelée avec différents paramètres d'URL (par exemple utm_source et utm_medium, ou "tri", "orderby", etc.)
aucune URL canonique n'est indiquée sur un site mobile non responsive design (par exemple avec m.example.com)
A indique B comme URL canonique, mais B est interdite au crawl (blocage dans le fichier robots.txt)
A indique B comme URL canonique, mais B est inaccessible (en erreur 404, 410, 403, etc.)
A indique B comme URL canonique, mais B est interdite d'indexation (par exemple avec une meta robots noindex)
Une page définit 2 URL canoniques différentes : une via l'entête HTTP et l'autre via la balis <link rel=canonical>
Sur une série de pages de pagination, les pages 2 et suivantes indiquent celle de la page 1 comme URL canonique (il faut utiliser rel=next et rel=prev ou envisager de ne pas faire indexer les pages 2 et suivantes)
L'URL réelle et l'URL canonique indiquée diffèrent par un slash à la fin (présent ou absent). Le célèbre plugin WordPress "Yoast SEO" fait cette erreur sur la page d'accueil.
l'URL canonique indique http://www.example.com/index.html pour la page d'accueil alors que celle-ci s'affiche sous la forme http://www.example.com/ (ou l'inverse)
L'URL canonique est indiquée en relatif et non pas en absolu (commence par http), ce qui n'est pas un problème en soi, mais parfois l'URL reconstituée se révèle différente ou erronée
L'URL canonique spécifie "http" alors que l'URL réelle est en "https" (ou l'inverse)
L'URL réelle utilise une ou des majuscules mais pas l'URL canonique (ou l'inverse)
L'URL réelle utilise la réécriture d'URL mais pas l'URL canonique (ou l'inverse)
L'URL canonique correspond systématiquement à l'URL consultée, sans vérification, quel que soit ce qu'on ajoute dans l'URL
L'URL canonique fait référence à la préprod ou tout environnement de test ou de recette, alors que la page est désormais en prod

Si vous connaissez d'autres situations, merci de les indiquer dans les commentaires.

Si vous ne l'avez pas déjà lu, lisez mon autre article Les pires erreurs d'URL canonique.

N'oubliez pas mes vidéos sur les problèmes de crawl et d'indexation : programme du tuto ici

Des questions ou commentaires ?

J'espère que ce dossier est aussi complet que vous le souhaitiez, en tout cas n'hésitez pas à laisser un message dans les commentaires.

Image d'illustration : Shutterstock, sous licence

Cet article vous a-t-il plu ?

Note : 5.0 (4 votes)

Cliquez pour voter !

Tweetez

Partagez

Laisser un commentaire Annuler la réponse

Votre pseudo * :

Votre email * :

Commentaire :

Remarques :

Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.
En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

13 commentaires

David 11 mai 2023

Bonjour Olivier,
Merci pour ces précisions très utiles.
J'ai deux questions à ce sujet :
1/ Que faire des pages de tags ou étiquettes qui peuvent devenir relativement nombreuses ? Faut-il les mettre en noindex ?
2/ Et les nombreuses pages de profil de membre générées par un plugin type bbpress ? idem, faut-il les desindéxer ?

merci

Répondre

Olivier Duffez 12 mai 2023

1) c'est rare que ce soit une bonne idée de les utiliser. Mais si ça a déjà été fait, il faut auditer le site pour savoir quoi faire, car les désindexer (noindex) ou supprimer peut avoir des mauvaises conséquences. Je conseille de faire un audit technique SEO par exemple avec mon outil RM Tech.

2) à moins que ces pages aient de la valeur ajoutée (je ne peux pas savoir sans connaître le site), il faut les interdire d'indexation et si possible ne pas faire de liens vers elles (perte de "jus").

Répondre

Flipou 18 mai 2016

#Olivier, merci de votre retour, les pages paginées génèrent bien du trafic, cependant en plus de contenir les Balises "Next" et "prev" elles ont une URL canonique vers la page 1. et nous nous demandions du faite que l'URL Canonique n'est pas nécessaire dans ce cas de figure, si cela n'était pas préjudiciable ?

Répondre

Olivier Duffez 19 mai 2016

@Flipou : si ces pages sont indexées, c'est que Google ne suit pas les recommandations de vos balises d'URL canonique.
Google recommande de ne pas en mettre vers la page 1, je ne peux pas le dire autrement ;-)

Répondre

Flipou 17 mai 2016

Bonjour,

En 2012 une Agence nous a en partie, mal implanter la balise canonique :

erreur 12 : "Sur une série de pages liées à de la pagination, les pages 2 et suivantes indiquent celle de la page 1 comme URL canonique (il faut utiliser rel=next et rel=prev ou envisager de ne pas faire indexer les pages 2 et suivantes).

En page 2 et suivantes en nous avons l'URL canonique vers la page 1 en plus des balises Next et Prev, "ce que Google déconseil aujourd'hui". Mais notre référencement est assez correct et craignons de corriger cela.

Qu'en pensez-vous ?

Merci à vous !

Cdt,

Franck

Répondre

Olivier Duffez 18 mai 2016

@Flipou : je n'ai pas tout compris, notamment la phrase "une Agence nous a en partie, mal implanter la balise canonique". Je remarque au passage que l'info date de 2012 ?
Comment vérifiez-vous que "le référencement est assez correct" ? Avez-vous mesuré le trafic généré par ces pages 2 et suivantes ?

Répondre

thil 16 mai 2016

Bonjour Olivier

Je rajouterai un point auquel je viens d'être confronté et qui m'a coûté de nombreuses heures de prise de tête : vérifier que votre CDN ne bloque pas les IPs étrangères, notamment celles des USA !!! GSC me signalait qu'il obtenait une erreur à la lecture de mon robots.txt alors qu'il était bien présent. J'ai découvert au bout de pas mal de recherches (euphémisme !) un problème de CDN sur les mutualisés OVH (qui concerne pas mal de monde donc !). En fait mon site n'était tout simplement pas accessible aux USA, précisément d'où vient googlebot !
J'ai fait une requête auprès d'OVH et le problème sera (je l'espère) bientôt réglé.

Merci pour le blog et les conseils.

Répondre

Olivier Duffez 16 mai 2016

merci thil pour ce retour d'expérience. Ce CDN est-il une option de l'hébergement choisi, ou bien imposé à tous ceux sur mutualisés ?

Répondre

Malvina85 16 mai 2016

Bonjour,
Concernant les Urls canonique pour les pages de listes avec pagination, j'ai chaque page avec sa propre Url canonique, et personnellement elles ont un certain impact au niveau du référencement puisqu'elles génèrent 20% du trafic d'entrée sur le site

Répondre

Olivier Duffez 16 mai 2016

@Malvina85 : je suis curieux de savoir de quel site il s'agit, et quelle méthode a été utilisée pour calculer ce 20%. Je ne l'ai jamais vu dépasser 1%...

Répondre

Awily 10 mai 2016

OK, merci pour le lien

Répondre

Awily 10 mai 2016

Merci pour ce récap,

"Sur une série de pages liées à de la pagination, les pages 2 et suivantes indiquent celle de la page 1 comme URL canonique (il faut utiliser rel=next et rel=prev ou envisager de ne pas faire indexer les pages 2 et suivantes)"

Pourquoi est-il préférable d'interdire l'indexation des pages suivantes Vs "canoniser" la première page de la liste ? De mon côté, j'ai fait différents tests sur la pagination (rel next prev / désindexation, canonisation...), mais je n'ai jamais vu apparaître de changements notables sur le trafic organique

Répondre

Olivier Duffez 10 mai 2016

Google a expliqué que l'erreur n°1 avec l'URL canonique consiste à mettre en canonique l'URL de la page 1 pour une série de pages
"Jamais vu de changements" : logique, ces pages n'ont aucun intérêt pour le SEO, elles génèrent très peu de visites

Répondre