Soft 404
Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Référencement : comment repérer et corriger les erreurs Soft 404

Si vous avez sur votre site des erreurs de type "Soft 404", les moteurs de recherche peuvent perdre du temps à crawler et indexer des pages sans intérêt, au détriment de vos pages de contenu. Google vous aide à les détecter en les listant dans l'interface de Google Search Console. Explications...

Article mis à jour le 29/08/2019 (nouvelle Search Console), publié initialement le 08/06/2010

Qu'est-ce qu'une erreur Soft 404 ?

Quand une page est introuvable, certains serveurs mal configurés affichent bel et bien un message d'erreur mais renvoient un code 200 signifiant que la page a été trouvée. C'est ce cas de figure que Google appelle "Soft 404".

Définition

Voici la définition d'une erreur soft 404 :

Une URL est en erreur soft 404 quand aucun contenu ne semble exister pour cette URL mais que le serveur ne renvoie pas d'erreur 404.

Dans ce cas, les robots risquent fort de penser qu'il s'agit d'une page de vrai contenu et vont donc l'indexer alors qu'elle ne présente aucun intérêt.

🤴 C'était par exemple le cas de la page du site du gouvernement français qui était positionnée en 1er dans Google pour la requête [iznogood] suite à un Google Bombing. Après avoir été supprimée, elle affichait un message d'erreur mais renvoyait un code 200, si bien qu'elle est restée dans Google plusieurs années...

Voici les autres explications de Google (source) :

Une erreur de type "soft 404" survient lorsque le serveur affiche une vraie page pour une URL qui en réalité n'existe pas sur votre site. Cela se produit en général lorsque votre serveur traite des URL incorrectes ou inexistantes comme des URL correctes, et redirige l'internaute vers une page valide telle que la page d'accueil ou une page 404 "personnalisée".

Cela pose problème, car les moteurs de recherche risquent de passer beaucoup de temps à explorer et indexer sur votre site des URL inexistantes et souvent dupliquées. Ceci peut avoir un effet négatif sur la couverture de l'exploration de votre site, car vos véritables URL uniques sont susceptibles de ne pas être découvertes aussi vite ou de ne pas être visitées aussi fréquemment en raison du temps que Googlebot passe sur les pages non existantes.

Différence avec une page en erreur 404 ou 410

Quand un internaute (ou un robot) cherche à accéder à une page qui n'existe pas, le serveur web doit renvoyer un code HTTP qui précise le statut de la page :

  • si la page est introuvable car elle n'existe pas, il faut renvoyer un code 404
  • si la page n'existe plus car elle a été définitivement supprimée, il faut renvoyer un code 410

Vous trouverez dans la FAQ plus d'informations sur les codes HTTP.

🤚 Le saviez-vous ? Même si ça semble logique d'utiliser le code (404, 410) le plus adéquat en fonction de la situation, et même si les SEO semblent remarquer que Google traite plus vite les 410 que les 404, il est fréquent de lire des employés de Google dire que Google ne fait pas de différence entre les 2.

Erreur Soft 404 à cause d'une page trop vide

Un cas de figure assez courant d'erreur Soft 404 est de laisser se faire indexer une page avec très peu de contenu. Par exemple, ça peut être une page de catégorie (listing) dans un site ecommerce, de contenu ou de petites annonces, qui n'a aucun élément à lister ! Avec uniquement une phrase du type "Aucun produit n'a été trouvé".

Dans ce cas, c'est pratique d'avoir une erreur dans Search Console pour être prévenu. Mais je vous propose bien mieux : un outil qui parcourt tout votre site et vous alerte des pages ayant a priori un contenu de trop faible qualité. Pour en savoir plus, lisez mon dossier sur la détection des pages de mauvaise qualité.

Envie de tester cet outil ? Lancez un audit gratuit ici

Erreur Soft 404 à cause d'une redirection 302

Une erreur classique est de vouloir configurer une page d'erreur 404 personnalisée, mais de se tromper dans le code du fichier .htaccess. Admettons que votre page personnalisée se nomme 404.php (vous pouvez choisir le nom que vous voulez).

Voici ce qu'il ne faut pas faire :

ErrorDocument 404 https://example.com/404.php

L'URL de la page 404 personnalisée ne doit pas commencer par http ou https. Voici le bon code :

ErrorDocument 404 /404.php

De toutes façons, je vous conseille de toujours vérifier que pour une URL qui n'existe pas, votre serveur renvoie effectivement un code 404 et rien d'autre.

En pratique, lisez mon dossier qui explique comment créer une page d'erreur 404 personnalisée.

Erreur Soft 404 à cause de nombreuses redirections

Un autre cas de figure est lié aux redirections : si vous redirigez un nombre important de pages vers une autre dont le contenu diffère trop, Google peut considérer que ce n'est pas approprié et signaler ces cas de figure comme des erreurs Soft 404, même si vous faites des bonnes redirections permanentes (code 301).

Pour en savoir plus : trop de redirections vers une même page au contenu hors-sujet.

Essayez de rediriger vers une page plus en adéquation avec la page d'origine (supprimée). Par exemple, évitez de faire plein de redirections vers votre page d'accueil.

Google considère une Soft 404 les redirections massives vers une page au contenu trop différentClick to Tweet

Détecter les erreurs Soft 404 et les corriger

Comment détecter les Soft 404 ?

Pour savoir si votre serveur est configuré correctement, il vous suffit d'utiliser un outil qui fournit le code HTTP d'une URL et de l'utiliser en fournissant une URL inexistante de votre site. Si vous obtenez un code 404 tout va bien, sinon si vous avez un code 200 alors vous avez un problème à corriger.

💡 Pour connaître le code HTTP de toutes les URL de votre site, utilisez un crawler comme RM Tech (celui de ma plateforme My Ranking Metrics).

La meilleure solution est d'aller dans Google Search Console. Voici les étapes pour trouver les erreurs soft 404 :

  1. dans Search Console, cliquez sur Couverture
  2. cliquez sur l'onglet Exclues
  3. cherchez dans la liste des types d'erreur s'il y a  "Soft 404". Dans ce cas, cliquez sur la ligne
  4. vous obtenez une courbe de l'évolution du nombre d'URL en 404 sur les dernières semaines, ainsi qu'un tableau listant des exemples (1000 au maximum), que vous pouvez exporter en CSV ou dans Google Sheets.

L'accès au rapport des Soft 404 :

Savoir si on a des soft 404
Search Console indique si Google a trouvé des URL en soft 404

Le détail des erreurs Soft 404 :

Liste des Soft 404 dans la Search Console
La Search Console liste les erreurs Soft 404 et fournit des exemples d'URL

Comment corriger les Soft 404 ?

Prenez les pages mentionnées par Google Search Console une par une, et voyez ce que vous pouvez faire :

  • s'il s'agit d'une page qui aurait dû avoir un contenu, ou qui en a un mais très léger : enrichissez le contenu de la page
  • s'il s'agit d'une page qui aurait dû être en 404, vérifiez la configuration de votre serveur (relisez les explications de cet article)
  • s'il s'agit d'une page qui n'aurait pas dû exister selon vous, vérifiez avec un crawler s'il y a des liens internes vers elle...

Autres conseils

Sachez que si Google a détecté des Soft 404 sur votre site, c'est qu'il a trouvé quelque part des liens vers ces pages (soit sur votre site, soit ailleurs). A vous d'agir en conséquence ! Je vous conseille de profiter de ces Soft 404 pour obtenir des backlinks.

Si vous êtes un peu perdu au niveau des tous ces codes HTTP et de leur impact sur le référencement, lisez mon tutoriel codes HTTP et référencement naturel.

On discute des soft 404 dans le forum WebRankInfo.

Cet article vous a-t-il plu ?

Note : 3.1 (9 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

9 commentaires

eldk

Bonjour,

Depuis un moment (1 ou 2 ans), la search console remonte quelques "soft 404" sur des pages qui ne sont ni redirigées, ni même sans contenu. Cette remontée peut être lente, certains signalements sont datés et apparaissent seulement après 1 ou 2 ans (voir plus).

Après vérification des logs serveur :
- certaines pages ne sont tout simplement plus explorées par Google après la date de signalement
- d'autres sont explorées régulièrement mais elle restent en "soft 404", malgré des réponses valides (réponse en 200, taille du contenu envoyé à Googlebot)

J'ai donc utilisé l'outil d'inspection d'URL. A la première vérification/consultation, il est bien indiqué page en Soft 404, non indexée.

J'ai effectué un test de l'url, avec vérification des logs côté serveur : une 200, une taille de fichier correcte ... Affichage de la page explorée : OK.

Enfin j'ai fait une demande d'indexation, vérification des logs ... attente de quelques minutes et la page apparaît avec le statut "envoyée et indexée".

Il n'y a aucune différence (quelques octets pour la taille de la réponse, ce qui est normal) entre l'exploration qui a mené Google à signaler une "soft 404" et l'indexation demandée en manuel.

Je pense donc qu'il y a quelques soucis de vraies/fausses "soft 404" chez le géant.

Cordialement,

Eric

Répondre
Olivier Duffez

Merci pour ce retour d'expérience. Ces pages ont-elles un contenu vraiment inédit et de qualité ?

Répondre
Pascal

Bonjour Olivier

Merci de déterrer ce post sur les 404 :) Je suis confronté dans GSC à un problème qui semble insolvable...

1- Sur un site les URLS avant étaient http blablabla.html depuis nous sommes passés à https blablabla
Afin d'éviter un nombre incalculable de justement 404, j'ai pour la totalité des URLS du site (plus de 1 000...) fait des redirections 301.
J'ai laissé ces redirections en place dans le .htaccess + de 6 mois puis j'ai tout retiré car le .htaccess avait vraiment glonflé avec toutes ces redirections. Je suis aussi dit (naïvement) que depuis 6 mois Google aurait bien compris que ces URLs avaient "déménagées"...

2- Par dessus le marché et suite à un audit fait avec My Ranking Metrics j'ai taillé dans le lourd et supprimer environ la moitié des articles de mauvaise qualité.

Bon et bien maintenant dans la GSC je me traine des 404 (pas soft) mais introuvables et j'en ai tout de même 1 169 !

Ces URLS en 404 retournent bien toute le code 404

Je croyais que "avec le temps" Google finissait par retirer une URL qui est de façon permanente en 404 ?

Que faut il que je fasse? Exporter toutes ces 404 à partir de GSC, les remettre dans le .htaccess mais avec une 410 ?

Je tourne en rond, merci de m'éclaire de vos lumières Googleienne..

Répondre
Olivier Duffez

il ne faut pas retirer les redirections, c'est tout !
si les 2 seuls trucs qui changent sont le protocole (http / https) et le .html à la fin (qu'il n'aurait surtout pas fallu retirer), c'est très facile à automatiser avec des règles dans le .htaccess (inutile de mettre autant de lignes qu'il y a d'URL à traiter)

Répondre
johann NGUELET

Oui elles généraient du trafic plus de la moitié du trafic organic concentrés sur les 5 pages dont je parle plus haut qui elles redirigent vers 5 pages similaires. Du coup vous pensez que si je passe le reste des pages en 410, le trafic va remonter ? car la c'est lal chute libre et elle c'est amorcé le lendemain de la suppression des pages. Vaut mieux indiquer à google des pages 410 pour lui dire que les pages ont été supprimés pour qu'il les désindexe plutôt que de tout rediriger vers 2 pages car c'est considéré comme du spam non?

Répondre
Olivier Duffez

désolé, c'est très compliqué sans savoir de quel site on parle (il faudrait poser cette question dans le forum, merci d'avance)
je ne comprends pas ce qu'il y a d'étonnant à voir le trafic chuter quand on supprime les pages qui le généraient ?

Répondre
johann NGUELET

Bonjour,

J'ai une question, j'avais un service de personnalisation au sein du e-commerce pour lequel je travail ( environ 60% de mes pages) de faible qualité mise à part 5 landing pages qui me rapportaient énormément de traffic, les 59,80% autres étaient faible en qualité. Lorsque mon patron a voulu supprimer toutes ces pages j'ai redirigé toute ces pages vers 2 pages seulement depuis mon traffic seo a été divisé par 2 et j'ai un nombre incalculable de soft 404. Par contre sur les pays ou les pages n'ont pas été supprimé aucun souci le traffic augmente et à presque doublé.

Pensez vous que mon traffic a été divisé par 2 à cause d'un nombre important de redirection 301 de pages de faible qualité vers seulement 2 pages ? Pensez vous que google pense que c'est une technique de black hat? j'ai lu cette article" https://www.hallaminternet.com/what-are-soft-404-errors-will-they-affect-rankings/" qui avait un peu le même souci et qui une fois qu'il a enlevé les redirections 301 et a laissé des 404 le traffic à doublé.

Je compte laisser les redirections des 5 landing pages qui elles ne sont pas en soft 404 et passer en 410 les autres urls de faible qualité quand pensez-vous?

Merci par avance :)

Répondre
Olivier Duffez

Si ces pages supprimées généraient du trafic, c'est logique qu'il ait chuté.
Si ce n'est pas le cas, de toutes façons il ne faut pas rediriger plein de pages vers une même URL (ou 2) : Google les considère comme des soft 404

Répondre
Auto Dispo

Une fonctionnalité intéressante qui m'a permis de me rendre compte qu'un module appelé depuis un site extérieur ne fonctionnait plus. De vrais pages de contenu renvoyait un code 200, mais une erreur 404 pour le module. Google les a classées dans en "Soft 404", j'ai pu corriger le tir.
Merci qui ? :)

Répondre