Avant de démarrer, je suppose que si vous lisez cet article, vous avez déjà lu les précédents. Si ce n'est pas le cas, voici les liens :
- Qu'est-ce que la méthode des « Pages Actives sur 1 an » ?
- Les principales causes d'un mauvais référencement
Vous êtes donc ici pour comprendre comment traiter les pages inactives sur un site (générant aucune visite sur 1 an, ou très peu).
Je vous alerte sur 2 points majeurs :
- Avant toute désindexation ou suppression, il faut comprendre la cause et toujours tenter d’abord de conserver la page en l’améliorant.
- Même si les outils aident énormément dans ce type d'analyse, c'est bien une réflexion humaine qui doit avoir le dernier mot. Ne vous basez pas aveuglément sur des recommandations automatisées, c'est à vous de décider au final.
D'abord, je vais commencer par traiter certains cas particuliers.
Cas particuliers de pages inactives en référencement
Que faire des pages contact, mentions légales, politique de confidentialité, CGU, conditions de livraison ?
Je conseille de laisser ces pages se faire crawler et même indexer, car elles jouent un rôle important pour l'analyse du sérieux et de la réputation du site (cf. analyse E.A.T.). Certains internautes pourraient même les chercher depuis Google et s'étonner de ne pas les trouver pour votre site. Il est assez fréquent que ces pages soient actives (sur 1 an). Enfin, ces pages ne représentent sans doute qu'une très faible partie de vos pages.
Faut-il supprimer les vieilles actualités ?
Si l'internaute arrive sur une très vieille actu mais que la date est clairement indiquée et qu'il est logique que le contenu n'ait pas changé (car cela ne le nécessitait pas), je ne pense pas que ça pose problème.
Cela dit, c'est à vous de choisir, si vous souhaitez supprimer des actualités vraiment très vieilles et jamais consultées, cette méthode vous aide à les repérer.
Si l'article n'est pas une actualité mais plutôt des conseils ou un tutoriel, c'est très différent. On pourrait même dire que c'est l'inverse, l'âge de l'article ne joue pas en sa faveur, notamment car l'internaute risque d'avoir un a priori négatif sur la fiabilité des informations.
Que faire des (vieilles) discussions d'un forum ?
Plus largement, faut-il supprimer les pages inactives dont le contenu est généré par l'utilisateur (UGC) ?
Bien souvent, passé un certain délai, ces pages ne génèrent aucune ou très peu de visites par an.
A quoi bon conserver une discussion n'ayant eu aucune réponse ? Ou bien le cas d'une demande d'aide très spécifique à un site, résolue depuis des années ? Ou bien pour aborder un sujet ou une techno totalement dépassée ou inutilisée aujourd'hui ?
A mon avis, c'est surtout un choix du propriétaire du forum : souhaite-t-il conserver tout un historique - par principe, ou préfère-t-il être pragmatique et retirer tout ce qui n'a aucune chance d'intéresser du monde dans le futur ?
L'autre problème est le temps que ça prend...
J'ai commencé à le faire sur WebRankInfo, mais avec 1,5 million de messages depuis 2002, ça prend beaucoup de temps à "nettoyer"...
La page bénéficie-t-elle d'un bon maillage interne ?
Dans tous les audits que j'ai fait, j'ai remarqué qu'il est encore très fréquent que le maillage interne soit très insuffisant. Si vous ne faites pas assez de liens vers une page, ou mal faits, alors la page est handicapée d'un point de vue SEO.
Si une page est inactive ou très faiblement active, vérifiez qu'elle dispose de suffisamment de liens entrants internes :
- si elle n'a qu'un seul lien, c'est souvent insuffisant
- le nombre de liens minimum dépend de la taille du site, mais essayez d'en avoir plusieurs
- tant qu'à faire, vérifiez que les ancres des liens vers la page sont variées (ceci optimise pour la longue traîne)
- mais surtout : évitez que la page ne reçoive qu'un (ou plusieurs) lien depuis de la pagination (page 2 et plus)
Pour vérifiez tout ça, si vous avez fait un audit en ligne RM Tech, vous avez toutes les infos :
- l'analyse de la profondeur vous dit si la page est trop profonde
- elle vous indique également combien la page reçoit de backlinks, ainsi que d'anchor text distincts
- dans la conclusion, la deuxième annexe liste tous les backlinks internes follow de toutes les URL étudiées, avec l'ancre de chacun. Vous saurez donc si votre page reçoit des liens autres que de la pagination.
Parfois le problème ne vient pas du contenu de la page
Si la page ne génère aucune visite ou très peu à l'année, la raison n'est pas toujours la page elle-même et son contenu. Avant d'envisager la supprimer ou désindexer, vérifiez donc tout ce qui a un impact sur ses performances SEO :
- vitesse de téléchargement et de chargement complet
- profondeur, backlinks internes, variété des ancres dans les backlinks internes
- compatibilité mobile
- expérience utilisateur
- a-t-elle des concurrentes sur le même site ("cannibalisation") ?
Si vous avez lancé un audit RM Tech, vous avez déjà la plupart de ces informations, pour chaque page.
Corrigez d'abord tous ces points, attendez quelques semaines puis relancez un audit complet pour vérifier si elles sont toujours inactives.
La page peut-elle être considérée comme une page satellite ?
Demandez-vous si la page est créée avant tout pour le référencement et non pour répondre à un réel besoin de l'internaute ou pour présenter votre offre...
La page fait-elle partie d'une (très) grande collection de pages construites de façon très similaire ? Par exemple la seule chose qui change est le nom d'une ville, et très peu de choses ailleurs dans le contenu. Dans ce cas, il faut se demander si ces pages sont réellement d'une grande qualité.
Regardez combien Google a bien voulu indexer de cette collection de pages. Si le taux est faible, c'est mauvais signe.
Envisagez de faire moins de pages (en les regroupant) mais de meilleure qualité.
Faut-il supprimer les pages inactives ?
Que faire de chaque page inactive ? Plusieurs solutions sont possibles :
- 📝 améliorer la page
- 📎 la fusionner avec d'autres pages
- ⛔️ la désindexer tout en la conservant sur le site
- 🗑 la supprimer complètement
- 🙏 ne rien faire, la laisser telle quelle (et espérer un miracle)
Pour savoir quoi faire, vous devez récupérer d’autres données spécifiques au site puis prendre une décision « humaine ».
Voici les données que j'ai l'habitude de récupérer, puis de fusionner dans Excel avec l'annexe générale de RM Tech :
- nombre de consultations de la page (nb de fois où elle a été affichée, qu'elle soit une page de destination ou pas, que le support soit le référencement naturel ou pas), afin de ne pas supprimer une page consultée même si inactive SEO
- nombre de mots ou caractères du contenu (si je peux le savoir facilement, par exemple par mon CMS), afin d'affiner l'évaluation de faiblesse du contenu
- nombre de réponses au 1er message quand il s'agit d'une discussion
- date de publication ou de dernière modification, afin de calculer un âge
- type de contenu (actualité, tutoriel, conseils, catégorie d'articles, fiche produit, catégorie de produits, petite annonce, catégorie d'annonces, etc.)
- chiffre d'affaires généré ou associé à la page afin de ne pas supprimer une page qui génère des revenus
- nombre de sites faisant des backlinks (ou d'autres indicateurs du netlinking) afin de ne pas supprimer une page ayant du PageRank sans le savoir ou sans faire de redirection
"Zombie" car plus cet indice est élevé, plus la page est irrécupérable. C'est aussi une référence à un terme utilisé par Brian Dean de Backlinko qui partage exactement la même vision que moi : un site devrait avoir une grande majorité de pages de forte qualité, actives, et très peu de pages zombies. C'est même la 1ère chose à faire selon lui dans cette vidéo.
Plusieurs solutions s'offrent à vous. Une assez simple consiste à multiplier tout ce qui est néfaste (noté N), à multiplier tout ce qui est positif (résultat noté P) et à diviser N par P. Ensuite vous triez selon cet indice, quitte à le multiplier par 10000 et cacher les décimales.
Par exemple :
- N = âge_en _années
- P = (1 + nb_sessions_générées) * (1 + nb_consultations) * (1 + nb_mots) * (1 + CA) * score_netlinking
J'ajoute "1" pour certains éléments afin d'éviter de finir avec un zéro dès que je multiple par zéro. Cette formule peut facilement être améliorée (donnez votre avis en commentaires) !
Maintenant que vous avez toutes les infos et étudié la page, suivez ceci :
Cas #1 si le contenu de la page est améliorable, c'est la meilleure chose à faire📝. Complétez les informations, mettez-les à jour, vérifiez si vous ciblez les bons mots-clés et que la richesse sémantique du texte est supérieure à celle de vos concurrents dans Google, améliorez l'UX, ajoutez des liens vers d'autres pages internes, précisez vos sources (avec des liens sortants externes), mettez en avant l'auteur, illustrez par des images ou des vidéos, etc. Ajoutez-lui des liens entrants internes et faites-en la promotion sur les réseaux sociaux ou dans vos mailings.
Cas #2 sinon, si le contenu est juste trop faible et que d'autres pages sont concernées, regroupez-les 📎. Choisissez la meilleure de ce groupe (cluster), fusionnez les contenus et reformatez le résultat final. N'oubliez pas de supprimer les autres pages du cluster et de faire des redirections 301 vers l'URL qui les regroupera. Parfois, aucune URL existante n'est adaptée pour les regrouper : vous pouvez en créer une toute nouvelle et rediriger toutes les autres vers elle. En aucun cas il faut faire des redirections massives vers une même URL, surtout n'ayant pas de contenu équivalent aux pages supprimées (le coup classique étant de rediriger en masse vers l'accueil : erreur à éviter).
Cas #3 sinon, si le contenu peut malgré tout intéresser des internautes ou générer des revenus, désindexez la page ⛔️ mais laissez-la en ligne. Sauf cas particulier, cela signifie que vous ne touchez pas au maillage interne : les liens vers la page restent en place. Si vous avez besoin d'aide, j'ai un tuto pour apprendre à désindexer une page.
Cas #4 sinon, le contenu est irrécupérable et la page doit être supprimée 🗑 (et désindexée). Elle doit donc renvoyer un code 410. Si vous ne pouvez pas faire la 410, renvoyez un 404. Ca ne change pas grand chose mais c'est pour éviter de polluer votre rapport d'erreurs 404 dans Search Console notamment. Vérifiez que plus aucun lien interne ne pointe vers elle.
En résumé...
Cet article fait partie d'une série sur ce que j'ai appelé la méthode des « Pages Actives sur 1 an » :
- cette méthode permet de se rendre compte des faiblesses SEO d’un site (qui passent souvent inaperçues, même chez les référenceurs chevronnés)
- vous allez repérer des pages totalement inactives sur 1 an : vous devez décider en priorité quoi faire avec elles, c’est le but de cet article
- il faudra aussi vous attaquer aux pages qui génèrent très peu de visites par an
- ceci permet de remonter la visibilité Google d’un site qui avait trop de pages de faible qualité
Bonjour,
Une problématique concernant les pages produits d'un site e-commerce.
300 produits environ et tous très similaires dans leurs catégories respectives...
J'essaie toujours de positionner au mieux les catégories plutôt que les produits.
Donc dans la description de chaque produit je place toujours un lien vers la catégorie parente en utilisant une ancre de lien toujours différente et si possible longue traine similaire au produit...
Exemple pour une catégorie de type SURVETEMENTS HOMME j'ai plusieurs produits du types :
- survetement homme à fermeture eclair
- survetement homme à capuche
- survetement homme en coton
....Enfin bref tout ce que vous voulez :-)
Du coup pour le premier cas par exemple je placerai dans la description le lien avec une ancre (entre guillements ici) du type : ce magnifique "survetement pour homme avec fermeture eclair" vous permettra....bla bla bla...Et ici je rappelle que le lien pointera vers la catégorie SURVETEMENTS HOMME...
Tout ceci pour aider la catégorie à se positionner sur tous ces types de requêtes...
Du coup et forcément les produits risquent de ne plus être des pages actives puisque sur ces requêtes c'est la catégorie qui risque de ressortir en priorité dans les résultats de recherche...
Ces produits deviennent donc des pages Zombie ?
Comment les traiter dans ces cas-là ?
Merci !
C'est bien de varier les ancres de liens, mais :
- ce n'est pas forcément pris en compte s'il y a déjà un autre lien dans la page pointant vers la catégorie (dans le menu, ou le fil d'ariane par exemple)
- ce n'est pas ça qui dope la catégorie et prive la fiche produit de trafic
La fiche produit doit être travaillée sur les détails spécifiques à chaque produit, et non sur celles en commun avec tous les produits de la catégorie. Quelques conseils : comment améliorer une fiche produit pour le SEO ?
J'ai fait un audit avec Rankingmetrics qui m'a permit d'identifier les problèmes de mon site très rapidement en me faisant gagner un temps précieux, cependant je n' ai pas trouvé de solution concernant les pages faiblement actives et non inactive ? Que devons nous faire pour celle ci ? Que préconisez vous de faire pour ses pages ?
L'annexe fournie en conclusion de l'audit RM Tech liste les points d'amélioration possibles pour les pages avec un indice zombie élevé (pages de mauvaise qualité non performantes). Je fournis aussi des conseils pour traiter les pages inactives.
Merci pour cette étude que j'ai lue plusieurs fois attentivement. Elle m'a permis de prendre quelques décisions comme fusionner et valoriser certains articles.
Mais j'ai encore un doute sur 4 pages que j'ai choisies de retirer de l'index de google - aucun autre choix n'était intéressant selon moi. Ces pages recevaient chacune 1 ou 2 visites par an. Je les avais créées au début du site pour faire quelques liens vers des sites de confrères. A part cela elles n'ont que peu de contenu.
J'ai donc placé les tags noindex, follow dans la meta correspondante pour ces 4 pages.
Mais curieusement ses pages encore accessibles sur mon site figurent encore dans l'index google (d'après search console), qui ne les a pas visitées depuis 2 mois, pas depuis que je les ai taguées noindex.
La question que je me pose est si je dois considérer que j'ai bien fait ce qu'il fallait faire , en signalant ainsi que je désavoue ces pages, mais que google a la liberté de garder indexées.
Ou bien dois-je aller au bout de la logique et supprimer ces pages - en espérant que wordpress joue bien son rôle en y mettant le code 404 ?
il suffit de demander une désindexation de ces pages, via l'ancienne search console
Merci. D'après ce que je lis cette ancienne interface n'est plus.
Ah si je l'ai retrouvée en parcourant l'aide de google
Hello.
J'aurais une petite question si tu le permets.
En reprenant tes chiffres pour définir les pages inactives, que devrais-je faire d'après toi de celles considérées comme inactives en SEO, mais tout de même actives sur le site ? Je les mets en NOINDEX ?
Merci :)
D'abord, je rappelle qu'il ne faut pas supprimer ou désindexer une page uniquement car elle est inactive. Il faut comprendre la cause et corriger le problème à la base. Ma méthode Pages Zombies SEO détaille ce qu'il faut faire.
Ensuite, qu'appelles-tu "page active sur le site" ?
Salut et merci pour ta réponse.
Je définis une "page active sur le site" comme une page recevant régulièrement des visiteurs en provenance des visiteurs (par exemple xxxx affichages sur les 365 derniers jours), mais qui ne reçoit pas ou très peu de visiteurs en provenance des moteurs.
Il doit y avoir une coquille dans ta phrase... Si j'ai bien compris, c'est une page qui est consultée (on le voit sur le nombre de vues) mais qui ne génère pas de visites via le référencement naturel.
A priori il ne faut pas la désindexer, mais chercher à l'améliorer. C'est expliqué dans mon dossier sur les pages zombies.
Pour la suite, merci de créer une discussion dans le forum, ça sera plus pratique et efficace pour discuter.
Salut Olivier,
Un article bien écrit mais j'ai de plus en plus de mal à croire que faire des choses sensées améliorent automatiquement notre classement sur le moteur.
Google veut placer (je caricature à peine, mais vraiment à peine)
1) Des pubs
2) des résultats wikipedia
Dans sa lutte contre les SEO Google se tire une balle dans le pied au fil des années et l'index est de plus en plus pourri par des sites vides, une page présentent une erreur (en 2 eme position !) ou autres joyeueusetés.
La logique et google plus pour moi...
OK Hugo, mais tu fais quoi alors ?
Hello,
Je viens de supprimer 247 articles de mon blog, des articles qui ne sont plus d'actualité aujourd'hui.
Comment Google va interpréter la perte de tous les liens internes qui étaient dans ces articles ?
Aussi, dois-je faire une quelconque manipulation pour que Google comprenne que j'ai supprimé ces pages ou bien il me suffit simplement de les laisser dans la corbeille ?
Merci d'avance,
BeartheBear67
Si on se base sur ce que Google indique généralement, il n'y a rien à faire d'autre que laisser ces 247 URL en code 404.
Pourtant, voici ce que je conseille :
J'ai tout laissé en 404. Apparemment c'est pareil pour GG.
Ca va aussi non ?
++
oui ça va. J'explique dans l'article pourquoi je préfère la 410.
Bonjour Olivier,
Tout d'abord un grand merci ! J'ai utilisé My Ranking Metrics, c'est très efficace mais que dire de ta technique de suppression de pages inactives ! Le top !
Je post pour te remercier mais aussi et surtout pour te prévenir d'un piège qu'il faut absolument éviter et qui peut faire tomber un site au lieu de le relever. Ça serait bien d'éditer tes tutos, car je m'y suis fait prendre...
Je m'explique. J'ai utilisé la suppression de PI sur 3 sites.
1er site : Succès immédiat.
Sur 17000 pages j'en ai supprimé 10000. Traffic triplé pendant mes vacances ! Que du bonheur de voir les stats s'enflammer sans rien faire !
Je tiens a préciser que le traffic se faisait sur des pages internes, la home n'était pas importante.
2eme site : Grosse claque
Site dans le domaine de l'assurance. 90 % du traffic se faisait par la home. J'ai supprimé 300 pages sur 500. Toutes mes pages internes se sont maintenues. Aucun bénéfice et la home est passé d'un top 3 à la 14eme place sur le main keyword et pareil pour toute sa longue traine ! Autant dire que j'ai pas compris ! Pourquoi la home est pénalisée ???
3 mois de travail : J'ai réecrit les pages, désoptimisé, réoptimisé, modifié les anchor de mes liens, prié, fais la danse du SEO.... et j'en passe et un matin j'ai trouvé le souci ! Erreur de débutant.
Pour ne pas troubler mes lecteurs j'ai toujours redirigé mes 404 vers ma home. Ca n'avait jamais posé problème jusque là car c'était en très petite quantité... Mais là c'est deux tiers du site que j'ai mis en 404 !
J'ai supprimé les redirections et ô miracle en moins de 15 jours le site a repris une position 5.
3eme site : Idem que le 2. Resolu en 15 jours...C'est ce qui me fait dire à 100% que le problème venait de là...
Donc voilà, un grand merci pour tes infos ! Mais préviens tes lecteurs pour les redirections car ça peut faire très très mal...
Ps : D'apres mes tests sur différents sites, le besoin de nettoyage des pages inactives est hyper efficace pour les sites qui ont perdu l'affichage d'etoiles dans les snipets de GG, preuve d'une mauvaise qualité générale... L'as tu remarqué aussi ?
++
Olivier
Merci Olivier pour ce retour d'expérience détaillé, encourageant en plus !
L'erreur dont tu parles, c'est le coup de rediriger plein de pages (supprimées) vers une même URL (souvent la page d'accueil). Il ne faut en effet jamais faire ça. Il faut faire une redirection 301 vers une page au contenu très proche, ou sinon renvoyer un code 410.
Et quel impact si on laisse simplement en 404 ?
Concrètement, du point de vue Google, y a-t-il une grosse différence entre 404 ou 410 ?
J'ai indiqué dans un commentaire précédent que la 404 va aussi, même si pour ma part je préfère la 410 (raisons évoquées dans l'article).
Google a déjà dit que la 404 est traitée comme la 410.
Je vais essayer.
Petite question, le site de ma boite publie au moins un ou deux articles (release note) de faible qualité sur le blog. Ces posts servent a dire a nos clients quelles sont les mises a jour que nous avons ajoute a notre produit.
Nous les publions meme si nous avons que deux lignes de texte a ajouter.
du coup on a des centaines de posts du type: "Release Note August 22, 2018"
Est-ce très mauvais?
Je pensais leur dire d'en faire un par mois, et chaque jours ou l'on doit publier une mise a jour, ajouter le contenu a l'interieur du post du mois en cours.
D'autres idees?
merci
ou alors ne pas faire indexer ces articles
@Olivier, dans le cas 3 de cet article, les liens qui pointent vers les pages mis en no-index doivent-ils être mis en no-follow ? s'il s'agit de menu de navigation par exemple.
Google apprécie t-il qu'un lien en follow soit à l'arrivé une page en no-index ?
Oui tant qu'à faire je pense que c'est mieux de mettre les liens en nofollow pour tenter d'éviter que Google les crawle, mais ça ne change pas grand chose au final.
De toutes façons, le noindex n'est pas une solution durable : au bout d'un moment il faut avoir choisi : soit la page est conservée sur le site et améliorée (sans noindex), soit la page est supprimée du site.
Pat Flynn en avait déjà parlé dans l'épisode 200 de son podcast Smart Passive Income. Pour l'occasion il interviewait un gars qui avait triplé son trafic en supprimant un tiers de son contenu inefficace. https://www.smartpassiveincome.com/podcasts/how-to-do-a-content-audit-with-todd-tresidder/
Merci pour l'info, même ancienne (2016) elle est intéressante. Connais-tu d'autres exemples réussis de "content pruning" ?
Ce que je ne comprends pas c comment concrètement supprimer une page. Parce que si je mets une redirection 410, cela veut aussi dire que je garde la page sur mon serveur ?
Exemple :
Avant : example.com/page
Après : example.com/page (avec redirection afin de ne plus afficher le contenu de cette page mais vers la page d'accueil ou une page type "le contenu n'explique plus")
Je ne sais pas si je m'explique bien, mais par exemple, est-ce que je peux juste supprimer des pages sur mon serveur? Comment s'opère la redirection?
Merci Olivier !
Si c'est un code 410 qui est envoyé, alors ça veut dire que la page n'est plus accessible (elle affiche un message d'erreur, celui d'une page 410 personnalisée). Et ça veut aussi dire que ce n'est pas une redirection (les redirections ont des codes HTTP du type 3XX comme 301 ou 302).
Pour supprimer une page du site, il faut voir comment faire dans le back-office du site, c'est selon le CMS. Selon les cas :
- ça enverra un code 404 (page introuvable) ou un code 410 (page a disparu)
- ça fera une redirection (si c'est prévu). Dans ce cas, il faut faire une redirection vers une page qui traite du même sujet (pas de redirections en masse vers une même page, sinon Google considère ça comme une soft 404)
Tu peux vérifier le code HTTP avec un outil comme le mien.
Pour des explications plus complètes, ça serait mieux de créer une nouvelle discussion dans le forum.
Super article merci. Petite question, dans le cas#1, si le contenu de la page est amélioré, faut-il remplacer la date de publication de l'article par la date de mise à jour ?
S'il s'agit d'une mise à jour importante, oui autant modifier la date.
Sinon, pas la peine.