Le scénario est le suivant : malgré vos efforts, Google liste des erreurs 404 (ou autres types d'erreur) dans le rapport "Pages > non indexées" de la Search Console. Est-ce grave ? Comment les corriger et les faire disparaître de GSC ?
Les erreurs 404 pénalisent-elles le référencement ?
Ce que dit Google
Voici les explications fournies par Google :
En général, les erreurs 404 n'ont aucune incidence négative sur les performances de votre site dans les résultats de recherche, mais elles peuvent vous aider à en améliorer l'expérience utilisateur.
Source : centre d'aide Google
Dans l'aide, on trouve des conseils supplémentaires :
Elles se produisent souvent à la suite de fautes de frappe ou d'erreurs de configuration, par exemple dans le cas de liens générés automatiquement par un système de gestion de contenu. Elles peuvent aussi être le résultat du développement croissant mené par nos services pour détecter et explorer les liens présents dans des contenus intégrés tels que JavaScript.
Cette dernière phrase n'est pas très claire, mais en gros on peut comprendre que Google cherche parfois à accéder à des URL qui n'existent tout simplement pas, mais son interprétation des codes Javascript fait que Google estime que ces URL peuvent exister...
Je termine par les derniers conseils de Google sur les 404 :
Il est tout à fait normal, voire souhaitable dans certains cas, de rencontrer des codes d'erreur 404 sur le Web. Vous ne pourrez probablement jamais contrôler tous les liens qui redirigent vers votre site ni résoudre toutes les erreurs 404 qui s'affichent dans la Search Console. Concentrez-vous plutôt sur les problèmes les plus importants, résolvez ceux que vous pouvez, puis passez à une autre étape.
Alors ? L'objectif de mon article est justement de vous aider à comprendre quelles sont les erreurs les plus importantes, qu'il faudrait corriger.
Mon avis sur l'impact SEO des erreurs 404
Mon point de vue :
- si une page générait du trafic (SEO) et se retrouve en erreur (404 ou autre), c'est un réel problème de référencement, qu'il faut absolument corriger.
- si une page est en erreur 404 à cause d'un lien venant de l'extérieur, vous n'y pouvez rien et cela ne dégrade pas vos performances SEO. Mais si ce lien est de qualité, tant qu'il génère une erreur 404 vous n'en profitez pas, donc vous devriez corriger le problème.
- si vous avez trop d'erreurs 404 dans vos liens internes, cela dégrade l'expérience utilisateur si bien que vous devriez les corriger
Comment corriger les erreurs 404 ?
A votre place, je suivrais les étapes suivantes...
Etape 1 Corriger les erreurs 404 générées par les liens internes
Si jamais des erreurs 404 sont causées par des liens internes, il faut absolument les corriger car :
- ces erreurs dégradent l'expérience utilisateur
- ces erreurs nuisent à votre référencement puisqu'une page ne reçoit pas le lien que vous aviez prévu de lui faire
- c'est facile à détecter et à corriger :-)
- ça fera un premier nettoyage de la liste des erreurs 404 indiquées dans Search Console
C'est un excellent cas de figure où mon outil RM Tech va énormément vous aider et vous faire gagner du temps. Il s'agit d'un outil d'audit SEO en ligne : vous indiquez l'URL du site à étudier et vous n'avez rien d'autre à faire qu'attendre qu'il ait fini. Dès que votre rapport d'audit est prêt, regardez dans la rubrique "Analyse du crawl et de l'indexabilité" le rapport "État des URL crawlées" qui dresse le bilan des codes HTTP rencontrés sur votre site, uniquement en suivant vos liens internes.
Voici un exemple avec un site qui avait besoin d'un gros nettoyage (plein d'erreurs dans les liens internes) :
Sous forme graphique, on se rend compte de la gravité des problèmes :
Pourquoi utiliser RM Tech et pas simplement Search Console ? Je détaille ci-dessous comment utiliser les rapports de la Search Console, mais vous verrez que cela ne suffit pas d'avoir la liste des URL en erreur : il vous faut aussi la liste des URL qui font ce lien erroné. Search Console en donne une partie (pas tout) mais c'est manuel, URL par URL, ce qui en pratique se révèle très peu efficace.
Avec RM Tech, non seulement vous avez la liste des pages en erreur, mais pour chacune des erreurs vous avez la liste des pages de votre site qui font un lien vers cette page en erreur. Un lien qu'il faudra bien entendu modifier ou supprimer (selon les cas).
Etape 2 Corriger les erreurs 404 générées par les sitemaps
Utilisez un outil d'analyse de l'entête HTTP pour vérifier que chaque URL indiquée dans votre sitemap renvoie bien un code 200 (ce qui signifie que tout est OK). Il ne doit pas y avoir de redirection et encore moins d'erreur 404 (ou 403, 410, 500, etc.).
Si vous êtes perdu dans tous ces codes : consultez la liste des codes HTTP.
Si ça fait trop d'URL à tester (c'est probable), utilisez mon outil d'audit de sitemap XML.
Etape 3 Corriger les erreurs 404 générées par les backlinks
Il est possible que certaines erreurs 404 soient liées à des backlinks, c'est-à-dire des liens issus d'autres sites, pointant vers une mauvaise URL de votre site. Pour les identifier, utilisez votre outil préféré d'analyse de backlinks (Majestic, Ahrefs ou Moz) et récupérez la liste des backlinks pointant vers une erreur 404. Majestic a publié un article sur ce sujet, à vous de l'exploiter pour votre propre site au lieu de celui d'un concurrent.
Si celui qui a fait le lien s'est trompé légèrement dans l'URL, c'est dommage et il faut le corriger :
- contactez le webmaster du site qui vous fait le lien en erreur pour lui demander de le corriger. Présentez-lui ça de façon positive en lui expliquant qu'il a un lien cassé sur son site...
- s'il ne répond pas, mettez en place une redirection 301 de la mauvaise URL vers la bonne
Pour les détails, lisez mon dossier "Comment transformer des erreurs 404 en backlinks" (OK, ce titre est un peu exagéré...).
Evidemment, si le lien est de mauvaise qualité en raison du site émetteur, mieux vaut ne pas le corriger, car c'est ce qu'on appelle un lien nocif pour le SEO...
Etape 4 Corriger les autres erreurs 404
Une fois que vous aurez validé les étapes précédentes, attendez 1 ou 2 semaines que Google mette à jour votre compte Search Console. Voilà où il faut aller...
- Dans la section "Indexation", cliquez sur "Pages"
- Vérifiez que la case "Non indexées" est cochée (fond gris, pas blanc) et repérez "Introuvable (404)" dans le tableau, si vous avez cette ligne...
- Cliquez sur la ligne pour consulter les exemples fournis (1000 maximum). Cliquez en haut à droite sur "Exporter"
Astuce : si vous avez déclaré votre sitemap (ce que je recommande), choisissez "Toutes les pages envoyées" à la place de "Toutes les pages connues". Ainsi, vous saurez si Google a identifié des pages 404 dans votre sitemap.
Si c'est plus simple pour vous de gérer la liste dans Excel, il vous suffit de télécharger le tableau. Pour chaque URL, vous aurez la date de dernière exploration (crawl).
Astuce : si vous avez beaucoup d'erreurs, vous arriverez peut-être à la limite fixée par Google, à savoir 1000 URL. Pour la contourner, il suffit de déclarer une sous-partie de votre site en tant que nouvelle propriété dans Search Console. Cette technique ne marche que si vous avez des répertoires à la racine, par exemple /blog/. Dans ce cas, vous pouvez déclarer https://www.example.com/blog/ comme nouvelle propriété ; elle sera validée immédiatement et vous pourrez consulter la liste des erreurs 404 concernant uniquement ce répertoire. Pratique !
Faut-il rediriger vers la page d'accueil les erreurs 404 ?
Je rencontre encore régulièrement des sites mal configurés, sur lesquels en cas de page introuvable on est redirigé vers la page d'accueil. Ne faites surtout pas ça !
- vous pourrez beaucoup plus difficilement vous rendre compte des pages introuvables (elles seront absentes des rapports Search Console par exemple)
- je déconseille de rediriger plein de pages différentes vers la page d'accueil
D'ailleurs l'aide en ligne de Google confirme qu'il faut qu'un serveur web renvoie un code 404 quand une ressource est introuvable :
Il est tout à fait normal, voire souhaitable dans certains cas, de rencontrer des codes d'erreur 404 sur le Web.
Vous avez peut-être configuré une page d'erreur 404 personnalisée (c'est très bien). Vérifiez malgré tout que le code HTTP renvoyé est bien un code 404, et pas 302 (redirection temporaire). Utilisez un outil de test de code HTTP sur une URL inexistante de votre site. Si vous avez une redirection 302, c'est sans doute que vous avez indiqué une URL entière dans votre fichier .htaccess pour la page d'erreur personnalisée.
La mauvaise façon de la définir :
ErrorDocument 404 http://www.example.com/page-introuvable.php
Voici la bonne façon (notez que l'adresse de la page personnalisée commence par /
et non pas par http
) :
ErrorDocument 404 /page-introuvable.php
Si besoin, lisez comment avoir une page d'erreur 404 personnalisée au design du site.
Besoin d'aide ?
Si vous n'y arrivez pas ou que quelque chose n'est pas assez clair pour vous, n'hésitez pas à poser la question dans les commentaires ou dans le forum WebRankInfo.
Vous pouvez aussi me contacter pour du consulting.
Si vous avez des questions, posez-les dans le forum WebRankInfo.
Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.
Bonjour,
Merci pour cette article intéressant.
Dans mon cas j'ai plusieurs millier de 404 (url avec attribut de recherche à la fin) liés à la migration de magento à presta.
J'ai fais toutes les redirections d'url catégorie par catégorie.
Mais mon problème ce sont les url du filtre de recherche que magento à généré, aujourd'hui la console google me trouve encore ces url et le pire c'est qu'il les indexes actuellement en sachant que la migration a été effectuée il y a plusieurs mois.
Avez-vous une piste pour limiter la casse ?
Merci
Dans l'idéal il faudrait faire des redirections 301 quand c'est approprié.
Pour les URL de recherche, il faut les mettre en noindex afin que Google ne les indexe pas...
Bonjour,
Du coup, ça signifie quoi lorsque Google me garde des pages que j'ai supprimé (donc des pages 404) en "indexée, mais non envoyée via un sitemap". Que va t'il se passer à terme, dois-je faire quelque chose? Et est-ce que ça a un impact sur mon référencement ? Merci bien.
Si l'URL répond en 404 et que Google la liste dans les indexées, c'est qu'il ne l'a pas encore désindexée.
Pour vérifier que l'URL est bien en 404 quand Google la consulte, il faut utiliser l'inspecteur d'URL.
A part mettre à jour le maillage interne (pour ne plus faire de lien vers l'URL en 404) et supprimer l'URL du sitemap, il n'y a rien à faire.
Ok, je constate que ces fameuses pages grimpe dans les résultats de recherche. J'espère que Google les auras bientôt désindexées. Merci en tout cas pour votre réponse.
Savez-vous en combien de temps en moyenne Google désindexe les pages 404?
ça peut prendre des mois... si c'est pressé, pour quelques URL, il faut faire une demande de suppression manuelle, dans la search console
Bonjour,
Je n'arrive pas a corriger les erreurs 404, où faut il aller pour corriger ce problème ?
J'ai cette fin d'adresse qui pose problème .com/:1
Je comprends pas pourquoi mais page indique cela ?
Il faut chercher sur le site (avec un crawler) s'il y a des liens vers cette URL, et le cas échéant il faut corriger le lien.
Ensuite il faut faire une redirection 301 vers la bonne URL.
Merci d'utiliser le forum en cas de besoin d'aide supplémentaire.
Bonjour Olivier,
Pour te répondre, aucune raison est indiquée dans le crawl. Aucune URL indiquant un backlink. Aucun lien en interne encore présent ou faisant référence à ces URL en 404.
Je vais attendre encore un an que Google se mette à jour :)
Hello,
Super article. Déjà utilisateur de RMTech (avec un autre compte), j'ai une question.
Il y a un an, j'ai fais des redirect 301 en masse ayant générées près de 700 URL mauvaises (404) dans Google.
J'ai corrigé le problème 5 jours plus tard et depuis un an, je continue de recevoir des crawl 404 de ces URLs dans la search console.
Les sitemaps sont à jour depuis un an. J'ai même demandé une dexindexation des liens dans la console il y a 1 an et rien n'y fait.
Hanté à jamais par cette erreur ? Faut-il 2 ans, 3 ans à Google pour enfin comprendre que ces URL n'existent pas ?
Merci d'avance de ton retour d'expérience sur le sujet
la désindexation ne change rien ici car les pages 404 ne sont pas indexées
est-ce que Google indique une raison du crawl de certaines de ces URL ? c'est indiqué dans des onglets normalement, quand on clique sur une des URL mentionnées en erreur
est-ce que ces URL ont des backlinks ?
il faut aussi voir s'il reste des liens (internes ou externes), ou des références à des URL qui redirigent vers ces 404
Ce sont souvent des annonceurs en stand by (retirés mais non supprimés d'ailleurs), qui peuvent générer des BL si eux on fait des liens, je n'ai pas le temps de vérifier et j'ai redirigé vers le niveau sup pour rediriger un lien éventuel vers le niveau sup. de la page. 3 ou 4 vont sur la home pas plus. Merci
Bonjour,
Suite aux audits et échanges, deux petites questions:
Que faire des vieux sujets SPAM de forums qui sont encore dans la console, et qui sont modérés en général sous 24/48H, Je pense que c'est bien de ne plus avoir de sujet avec des offres de prêts pour le référencent du forum qui trainent sur les erreurs 404.
Concernant les pages dont j'ai changé les url, j'ai fait une liste, en regardant le tuto, de RedirectPermanent / avec la page actuelle sans regarder fastidieusement s'il y a des liens pointant. Une liste de 150 "301" nuit elle au référencement?
Merci.
S'il n'y a plus de liens internes vers les sujets de spam, ils devraient disparaitre de la console, pas de souci.
Pourquoi avoir changé autant d'URL ? c'est se compliquer la vie... Par ailleurs, il est déconseillé de rediriger plein d'URL vers la page d'accueil : il faut rediriger vers une page qui correspond à l'ancien contenu.
Bonjour,
Je viens de refaire mon site de fond en comble, j'ai supprimé le précédent sitemap, j'ai fait un nouveau sitemap mais Google me sort 400 pages en 404 sur le Search Control... Qui sont issues de l'ancien site.
Dois-je les rediriger sur mes nouvelles pages et sur le home du site ?
Je reconnais que c'est la première fois que je me fais planter comme ça par Google...
Merci !
Il aurait fallu éviter de modifier des URL, ou au moins prévoir un plan de migration pour les changements et suppressions, afin de mettre en place des redirections.
Je déconseille de rediriger ces pages vers l'accueil, il faut faire au cas par cas une redirection vers la page la plus appropriée.
Bonjour,
J'ai plus de 20 000 pages marquées comme introuvables dans ma search console et dont je n'arrive pas à me débarrasser. Mon site à été piraté le temps d'une matinée et suite à la suppression des fichiers infectés sur mon serveur, je me suis retrouvé avec des milliers d'erreurs 404. Lorsque je clique sur une erreur, l'outil Google m'indique que la page introuvable est référencée sur une page elle aussi introuvable... Alors pourquoi Google continue de crawler des pages introuvables et comment repère-t-il des urls sur ces pages ?
En vous remerciant par avance
il faut s'assurer qu'il ne reste plus aucun lien interne vers ces URL, ni aucun sitemap. Dans ce cas, à part avoir corrigé la faille sur le site, il n'y a rien d'autre à faire qu'attendre une mise à jour des rapports de Search Console
Tiens, la ville de Paris a envoyé tous ses 404 vers la Home à la refonte du site ;)
Pour PrestaShop, je suis en train de finaliser un module qui concerne ce problème (et que j'évoque en formation !) lorsqu'on désactive un produit ou une catégorie.
Ce module redirige automatiquement un produit désactivé (et non pas supprimé) vers sa catégorie parente.
Et il redirige une catégorie désactivée vers sa catégorie parente aussi (et ainsi de suite si la parente est aussi désactivée, jusqu'à la page d'accueil si nécessaire).
Merci beaucoup pour vos explications qui me seront sûrement très utiles. Cet article est tip top et je le partage via Linkedin !
Merci Hanane !
Bonjour Olivier,
dans mon cas, j'ai racheté il y a 3 ans, sans vérifier un domaine qui était autrefois, il y a plusieurs années, sur une thématique adulte. Il a été abandonné pendant au moins 2 ans, avec aucune page. La nouvelle thématique est une banque d'images gratuites, pour tout public. Depuis des mois, j'ai contacté les webmasters des sites qui me faisaient des liens pour qu'ils les retirent, j'ai mis les pages linkées en 410, mais elles ressortent toujours et encore dans la search console. Je ne sais pas quoi faire, d'autant plus que je pense être pénalisé pour cette histoire de thématique adulte mémorisée par Google...
Je n'ai jamais travaillé dans ce cas de figure (il faut toujours regarder attentivement le passé d'un domaine avant de l'acheter !)... Demande sur le forum d'autres avis ?
Tous les liens de thématique adulte pointent donc vers des pages en erreur, et ce n'est pas gênant dans ton cas. Sauf pour les liens vers la page d'accueil !