Enlever rapidement des milliers url spam (erreur 404) de l'index google

WRInaute discret
Bonjour,

J'ai vu avec stupeur que la page d'accueil de notre site (ndd plusieurs années et rafais en début d'année) n'était pas indexé. En allant dans la console , je n'arrive pas à la faire réindexer. C'est là que je me suis aperçu qu'il y avait des milliers d'urls (probablement ancien site) dans la colonne url exclue car "Anomalie lors de l'exploration" dont la page d'accueil du site (cela fait mauvais genre!). Toutes en dehors de quelques bonnes urls actuelles donnent une erreur 404.
J'ai vu qu'il fallait absolument enlever ces urls avec erreur 404 car Google ne le faisait pas naturellement.

Je pense avoir une solution qui va m'éviter de déprimer trop rapidement.
J'ai trouvé de l'aide sur la page https://www.leptidigital.fr/webmarketing/seo/comment-desindexer-pages-google-9797/
Si je comprends bien , il y a plusieurs méthodes qu'il indique mais j'ai moins confiance en
A) Utiliser la commande X-Robots-Tag du fichier .htaccess : cette technique permet de désindexer des pages ou des fichiers sans avoir à modifier leur code source : X-Robots-Tag: noindex
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Ce code permet par exemple de ne pas indexer tous les fichiers PDF d’un site.
B) Utiliser la directive « Noindex: » du robots.txt : cette directive, bien que non officiellement interprétée par Google fonctionne réellement

Mais la plus judicieuse serait de générer un fichier sitemap avec ces urls 404 en
1/ exportant les urls (bon c'est limité à 1000, j’imagine qu'il faudra s'y reprendre en plusieurs fois?) au format csv de la console Google
2/ puis (en enlevant les erreurs dont la page d'accueil) que je stocke le tout dans un fichier sitemap pour le voir supprimer "rapidement" de l'index !?

Qu'en pensez-vous ?
Car j'ai un peu peur d’aggraver la situation et combien de temps (environ bien sûr) la solution peut-être rétabli
Merci
@+
 
Nouveau WRInaute
Bonjour si il n'y a pas moyen de faire des redirections 301 des anciennes URL en 404 vers des nouvelles équivalentes, il faut les mettre en 410 gone avec votre fichier Htaccess. Faites au moins des 301 sur les pages où vous avez des liens entrants

Il faut aussi faire un sitemap de ces URLs pour accélérer la prise en compte par Google. Vous pouvez aussi extraire ces 404 avec un analyseur de log comme SEOLYZER https://seolyzer.io/
 
WRInaute discret
Bonjour,
Merci pour la contribution. Pour le htaccess ,cela me semble long et compliqué pour plusieurs milliers d'urls.
Pour le sitemap, c'est ce que je pensai faire (dernière partie de mon message) C'est donc correct :) et cela permet la prise en compte la plus rapide :)
 
Nouveau WRInaute
Comment pensez-vous mettre les URL de votre sitemap en 410 gone sans toucher à votre HTACCESS ?
Il y a surement une logique dans les URLs en 404. Dans le HTACCES il n'est pas toujours obligatoire de lister toutes les url si on trouve un point commun. Pouvez-vous en partager quelques unes ?
 
Olivier Duffez (admin)
Membre du personnel
il y a pas mal de points à voir...
est-ce que les URL en 404 sont des URL qui devraient être en 200 (et qui pour une raison étrange sont en 404) ? si c'est le cas, c'est grave et il faut trouver la cause.

sinon, alors une faille sur le site a permis à un spammeur de générer plein de 404 sur le site, que Google a trouvées. Mais qu'il n'a sans doute pas indexées. C'est à vérifier. Si elles ne sont pas indexées, je ne vois pas le pb.

Utiliser la directive « Noindex: » du robots.txt : cette directive, bien que non officiellement interprétée par Google fonctionne réellement
l'article ne devait pas être à jour car cela ne fonctionne plus désormais
 
WRInaute discret
Bonjour,
Merci pour vos contributions.
@WebRankInfo et @The Next
J'envoie les copies d'écran couverture gogole( image) qui montrent qu'il y a beaucoup de pages exclues et que les urls (image) sont :
* essentiellement du spam
* anciennes urls wordpress qui avait une faille
aucunes n'ony leur place dans l'index.
* quelques urls correctes dont la racine du site :-(

j'ai beaucoup lu WebRankInfo :) ces derniers jours et si j'ai bien compris ces pages zombies que j'ai laissé dans l'index google ont terni de bonnes urls !

J'ai essayé de faire réindexer la page d'accueil (image) mais je n'y suis pas arrivé.

J'ai vu aussi ici et ailleurs l'idée de réinjecter ces urls (en enlevant les bonnes urls code 200 bien sûr) dans un sitemap et le soumettre à Google.
J'ai compris que l'article que je cite n'est plus actualisé. néanmoins la question maintenant c'est si c'est obligatoire ou fortement conseillé de remplir le htaccess avec toutes ces urls avec un redirect 410 !?

Sinon y a t-il une meilleure solution ?
Merci

onSort.eu_pb.png onSort.eu_couverture.png OnSort.eu_nonreindex-accueil.png
 
WRInaute discret
Je pense qu'en quelques jours, la discussion a radicalement évolué. D'habitude je fais un lien dans les 2 fils mais je trouvais que c'était trop différent et cela avait plutôt mal démarré ou incompréhensions! Vous pouvez la supprimer si vous voulez sinon je ferai le lien quand ce sera résolu pour moi.
Merci
 
WRInaute discret
c'est juste qu'on doit se re-plonger à étudier un cas (site) déjà vu ailleurs/avant
ok désolé mais je pense sincèrement qu'avec mes copies écrans et du recul, ma compréhension est radicalement différente d'il y a qq jours et c'est essentiellement du à mes lectures sur webRankInfo ou ailleurs. Je ne crois pas qu'il y ait des informations importantes sur l'ancien fil car le contexte était la surprise de ne pas avoir la page d'accueil indexé ce que je n'avai jamais vu :-( (et de ne pas arriver à la resoumettre qui me déprimait)
Maintenant je comprends mieux si ce que j'ai dis précédemment est juste
 
WRInaute occasionnel
Salut herdeD69,

Dans GSC les pages 410 elles apparaissent dans "Anomalie lors de l'exploration", les 404 dans "Introuvable (404)".

Je te conseille de mettre des 410 afin qu'elles se désindexent plus rapidement et puis c'est le code approprié si la page a déjà existé.

Après suivant comment est conçu ton site c'est pas toujours facile. Mettre plusieurs centaines d'urls dans un .htaccess c'est assez lourd à gérer. Si tu as la main sur ton code (php par exemple) tu peux créer un module pour traiter les urls en erreurs (codes 404, 410, 301, etc suivant le contexte). J'ai fait cela sur mon site cela marche très bien.

Concernant la page d'accueil je te conseille de cliquer dessus dans le rapport et de cliquer sur "inspecter l'url" afin de voir si le problème est encore présent. On parle quand même de la page d'accueil ;-).

Pour les anciennes pages comme par exemple /fr/components/ si elles ne sont plus indexées tu peux mettre ce type d'url en disallow dans un fichier robots.txt. Le but étant d'économiser le budget crawl et tu n'auras plus à mettre ces urls en 410. Si ces urls viennent d'être désindexées je te conseille d'attendre encore un peu car elles reviennent parfois dans l'index.

Je pense que c'est indispensable d'utiliser un outils de crawl comme Seolyzer afin de voir comme GG crawl tes pages chaque jour. L'outils permet afficher la liste des urls crawlées de façon chronologique et d'avoir le code http (200, 301, 404, 410, ...) en couleur sur une colonne. Super pratique pour voir si les codes sont corrects, les pages les plus crawlées, etc ...
 
Dernière édition:
WRInaute discret
Bonjour,
Merci d'avoir contribué
Je te conseille de mettre des 410 afin qu'elles se désindexent plus rapidement et puis c'est le code approprié si la page a déjà existé.
Je ne sais pas si j'ai les compétences pour faire tout cela mais d'abords. Est-ce vraiment obligatoire ? ou conseillé pour accélérer la prise en compte ? ou un conseil car rien vu dans l'aide Google
Après qu'est-ce que je dois mettre comme ligne (être sur de ne pas attendre inutilement) ?

Après suivant comment est conçu ton site c'est pas toujours facile. Mettre plusieurs centaines d'urls dans un .htaccess c'est assez lourd à gérer. Si tu as la main sur ton code (php par exemple) tu peux créer un module pour traiter les urls en erreurs (codes 404, 410, 301, etc suivant le contexte). J'ai fait cela sur mon site cela marche très bien.
ben oui c'est lourd et je ne vois pas beaucoup de terme récurrent et pas forcément le temps et les compétences dans ce domaine / des résultats attendus

Concernant la page d'accueil je te conseille de cliquer dessus dans le rapport et de cliquer sur "inspecter l'url" afin de voir si le problème est encore présent. On parle quand même de la page d'accueil ;-).
Ben oui c'est bien cela qui m'affole et départ de mes demandes. Si mon analyse (ancien message) est bonne, il faut donc attendre qu'un max. de apges zombies est disparues car pas vu d'autres choses à faire dans "l'aide" GG

Pour les anciennes pages comme par exemple /fr/components/ si elles ne sont plus indexées tu peux mettre ce type d'url en disallow dans un fichier robots.txt. Le but étant d'économiser le budget crawl et tu n'auras plus à mettre ces urls en 410. Si ces urls viennent d'être désindexées je te conseille d'attendre encore un peu car elles reviennent parfois dans l'index.
pas tout compris masi je dois mettre cela en :
Disallow: /fr/components/ et tout les autres d'ailleurs avec /fr/ devant car l'ancien robot.txt ne mentionne pas /fr/ du à un site multilangue

Je pense que c'est indispensable d'utiliser un outils de crawl comme Seolyzer afin de voir comme GG crawl tes pages chaque jour. L'outils permet afficher la liste des urls crawlées de façon chronologique et d'avoir le code http (200, 301, 404, 410, ...) en couleur sur une colonne. Super pratique pour voir si les codes sont corrects, les pages les plus crawlées, etc ...
Bon encore un site à tester
BOn je vais essayer mais je m'y perds dans la multitude des outils à utiliser pour gérer un site web !
Et il faut le comparer à d'autres ou je suis certainement inscrit.
@+
 
WRInaute discret
Bonjour,
Suite à des discussions en avec quelques personnes, la situation du site parait assez grave!
J'aurai besoin d'être rassuré par quelques experts seo, sur les solutions que j'ai trouvé ou amélioré par vous, en détaillant les étapes (car je ne suis pas expert dans ce domaine) car le risque est parait-il important de faire pas mal de dégâts :-(
Merci
 
WRInaute discret
Bonjour,
Petite relance si des experts seo voulaient bien valider mes étapes/ me conseiller :) pour résoudre le problème en évitant de l'aggraver :(

Etape 1
je récupère les urls exclues à partir de la console GG dans un fichier csv

Etape 2
je fais le ménage en enlevant les bonnes urls dont celle de la page accueil

Etape 3
Je mets la liste de ces urls et je crée une page cachée sur le site ou un sitemap renvoyée à GG

Etape 4
Je dois faire un redirectpermannt 410 de cette même liste (c'est là ou je ne sais pas si c'est obligatoire, vivement conseillé ...)
 
WRInaute discret
Bonjour,
A priori le titre de la discussion n'est pas correcte car finalement les erreus 404 ne sont pas majoritaires. je ne sais pas si cela a une influence sur le taux de réponse sur ce fil !?
Je n'arrive pas à le changer si un admin veut bien mettre un terme plus appropriée:
Anomalie lors de l'exploration -> 2 052
Exclues Soft 404 -> 498
Exclues Page en double sans URL canonique sélectionnée par l'utilisateur -> 359
Exclues Explorée, actuellement non indexée -> 87
Exclues Exclue par la balise "noindex" -> 32
Exclues Page en double : Google n'a pas choisi la même URL canonique que l'utilisateur -> 10
Exclues Page avec redirection -> 10
Exclues Introuvable (404) -> 5

Je n'ai tjs pas commencé à appliquer la méthode qui découle de mon analyse. Est-ce que des personnes avec expériences peuvent me confirmer que c'est bon, voir détailler ou donner alternative ?
merci
@+
 
Discussions similaires
Haut