Enlever rapidement des milliers url spam (erreur 404) de l'index google

Discussion dans 'Crawl et indexation Google, sitemaps' créé par herveD69, 25 Septembre 2019.

  1. herveD69
    herveD69 Nouveau WRInaute
    Inscrit:
    18 Décembre 2018
    Messages:
    35
    J'aime reçus:
    0
    Bonjour,

    J'ai vu avec stupeur que la page d'accueil de notre site (ndd plusieurs années et rafais en début d'année) n'était pas indexé. En allant dans la console , je n'arrive pas à la faire réindexer. C'est là que je me suis aperçu qu'il y avait des milliers d'urls (probablement ancien site) dans la colonne url exclue car "Anomalie lors de l'exploration" dont la page d'accueil du site (cela fait mauvais genre!). Toutes en dehors de quelques bonnes urls actuelles donnent une erreur 404.
    J'ai vu qu'il fallait absolument enlever ces urls avec erreur 404 car Google ne le faisait pas naturellement.

    Je pense avoir une solution qui va m'éviter de déprimer trop rapidement.
    J'ai trouvé de l'aide sur la page https://www.leptidigital.fr/webmarketing/seo/comment-desindexer-pages-google-9797/
    Si je comprends bien , il y a plusieurs méthodes qu'il indique mais j'ai moins confiance en
    A) Utiliser la commande X-Robots-Tag du fichier .htaccess : cette technique permet de désindexer des pages ou des fichiers sans avoir à modifier leur code source : X-Robots-Tag: noindex
    <Files ~ "\.pdf$">
    Header set X-Robots-Tag "noindex, nofollow"
    </Files>
    Ce code permet par exemple de ne pas indexer tous les fichiers PDF d’un site.
    B) Utiliser la directive « Noindex: » du robots.txt : cette directive, bien que non officiellement interprétée par Google fonctionne réellement

    Mais la plus judicieuse serait de générer un fichier sitemap avec ces urls 404 en
    1/ exportant les urls (bon c'est limité à 1000, j’imagine qu'il faudra s'y reprendre en plusieurs fois?) au format csv de la console Google
    2/ puis (en enlevant les erreurs dont la page d'accueil) que je stocke le tout dans un fichier sitemap pour le voir supprimer "rapidement" de l'index !?

    Qu'en pensez-vous ?
    Car j'ai un peu peur d’aggraver la situation et combien de temps (environ bien sûr) la solution peut-être rétabli
    Merci
    @+
     
  2. The Next
    The Next Nouveau WRInaute
    Inscrit:
    14 Novembre 2018
    Messages:
    8
    J'aime reçus:
    0
    Bonjour si il n'y a pas moyen de faire des redirections 301 des anciennes URL en 404 vers des nouvelles équivalentes, il faut les mettre en 410 gone avec votre fichier Htaccess. Faites au moins des 301 sur les pages où vous avez des liens entrants

    Il faut aussi faire un sitemap de ces URLs pour accélérer la prise en compte par Google. Vous pouvez aussi extraire ces 404 avec un analyseur de log comme SEOLYZER https://seolyzer.io/
     
  3. herveD69
    herveD69 Nouveau WRInaute
    Inscrit:
    18 Décembre 2018
    Messages:
    35
    J'aime reçus:
    0
    Bonjour,
    Merci pour la contribution. Pour le htaccess ,cela me semble long et compliqué pour plusieurs milliers d'urls.
    Pour le sitemap, c'est ce que je pensai faire (dernière partie de mon message) C'est donc correct :) et cela permet la prise en compte la plus rapide :)
     
  4. The Next
    The Next Nouveau WRInaute
    Inscrit:
    14 Novembre 2018
    Messages:
    8
    J'aime reçus:
    0
    Comment pensez-vous mettre les URL de votre sitemap en 410 gone sans toucher à votre HTACCESS ?
    Il y a surement une logique dans les URLs en 404. Dans le HTACCES il n'est pas toujours obligatoire de lister toutes les url si on trouve un point commun. Pouvez-vous en partager quelques unes ?
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 079
    J'aime reçus:
    333
    il y a pas mal de points à voir...
    est-ce que les URL en 404 sont des URL qui devraient être en 200 (et qui pour une raison étrange sont en 404) ? si c'est le cas, c'est grave et il faut trouver la cause.

    sinon, alors une faille sur le site a permis à un spammeur de générer plein de 404 sur le site, que Google a trouvées. Mais qu'il n'a sans doute pas indexées. C'est à vérifier. Si elles ne sont pas indexées, je ne vois pas le pb.

    l'article ne devait pas être à jour car cela ne fonctionne plus désormais
     
    The Next apprécie ceci.
  6. herveD69
    herveD69 Nouveau WRInaute
    Inscrit:
    18 Décembre 2018
    Messages:
    35
    J'aime reçus:
    0
    Bonjour,
    Merci pour vos contributions.
    @WebRankInfo et @The Next
    J'envoie les copies d'écran couverture gogole( image) qui montrent qu'il y a beaucoup de pages exclues et que les urls (image) sont :
    * essentiellement du spam
    * anciennes urls wordpress qui avait une faille
    aucunes n'ony leur place dans l'index.
    * quelques urls correctes dont la racine du site :-(

    j'ai beaucoup lu WebRankInfo :) ces derniers jours et si j'ai bien compris ces pages zombies que j'ai laissé dans l'index google ont terni de bonnes urls !

    J'ai essayé de faire réindexer la page d'accueil (image) mais je n'y suis pas arrivé.

    J'ai vu aussi ici et ailleurs l'idée de réinjecter ces urls (en enlevant les bonnes urls code 200 bien sûr) dans un sitemap et le soumettre à Google.
    J'ai compris que l'article que je cite n'est plus actualisé. néanmoins la question maintenant c'est si c'est obligatoire ou fortement conseillé de remplir le htaccess avec toutes ces urls avec un redirect 410 !?

    Sinon y a t-il une meilleure solution ?
    Merci

    onSort.eu_pb.png onSort.eu_couverture.png OnSort.eu_nonreindex-accueil.png
     
  7. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 079
    J'aime reçus:
    333
    ça aurait été bien de dire ici dans cette discussion que ça concerne le même site que dans cette autre discussion...
     
  8. herveD69
    herveD69 Nouveau WRInaute
    Inscrit:
    18 Décembre 2018
    Messages:
    35
    J'aime reçus:
    0
    Je pense qu'en quelques jours, la discussion a radicalement évolué. D'habitude je fais un lien dans les 2 fils mais je trouvais que c'était trop différent et cela avait plutôt mal démarré ou incompréhensions! Vous pouvez la supprimer si vous voulez sinon je ferai le lien quand ce sera résolu pour moi.
    Merci
     
  9. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 079
    J'aime reçus:
    333
    c'est juste qu'on doit se re-plonger à étudier un cas (site) déjà vu ailleurs/avant
     
  10. herveD69
    herveD69 Nouveau WRInaute
    Inscrit:
    18 Décembre 2018
    Messages:
    35
    J'aime reçus:
    0
    ok désolé mais je pense sincèrement qu'avec mes copies écrans et du recul, ma compréhension est radicalement différente d'il y a qq jours et c'est essentiellement du à mes lectures sur webRankInfo ou ailleurs. Je ne crois pas qu'il y ait des informations importantes sur l'ancien fil car le contexte était la surprise de ne pas avoir la page d'accueil indexé ce que je n'avai jamais vu :-( (et de ne pas arriver à la resoumettre qui me déprimait)
    Maintenant je comprends mieux si ce que j'ai dis précédemment est juste
     
  11. NicolasH
    NicolasH WRInaute occasionnel
    Inscrit:
    4 Mai 2016
    Messages:
    303
    J'aime reçus:
    21
    Salut herdeD69,

    Dans GSC les pages 410 elles apparaissent dans "Anomalie lors de l'exploration", les 404 dans "Introuvable (404)".

    Je te conseille de mettre des 410 afin qu'elles se désindexent plus rapidement et puis c'est le code approprié si la page a déjà existé.

    Après suivant comment est conçu ton site c'est pas toujours facile. Mettre plusieurs centaines d'urls dans un .htaccess c'est assez lourd à gérer. Si tu as la main sur ton code (php par exemple) tu peux créer un module pour traiter les urls en erreurs (codes 404, 410, 301, etc suivant le contexte). J'ai fait cela sur mon site cela marche très bien.

    Concernant la page d'accueil je te conseille de cliquer dessus dans le rapport et de cliquer sur "inspecter l'url" afin de voir si le problème est encore présent. On parle quand même de la page d'accueil ;-).

    Pour les anciennes pages comme par exemple /fr/components/ si elles ne sont plus indexées tu peux mettre ce type d'url en disallow dans un fichier robots.txt. Le but étant d'économiser le budget crawl et tu n'auras plus à mettre ces urls en 410. Si ces urls viennent d'être désindexées je te conseille d'attendre encore un peu car elles reviennent parfois dans l'index.

    Je pense que c'est indispensable d'utiliser un outils de crawl comme Seolyzer afin de voir comme GG crawl tes pages chaque jour. L'outils permet afficher la liste des urls crawlées de façon chronologique et d'avoir le code http (200, 301, 404, 410, ...) en couleur sur une colonne. Super pratique pour voir si les codes sont corrects, les pages les plus crawlées, etc ...
     
    #11 NicolasH, 25 Septembre 2019
    Dernière édition: 25 Septembre 2019
  12. herveD69
    herveD69 Nouveau WRInaute
    Inscrit:
    18 Décembre 2018
    Messages:
    35
    J'aime reçus:
    0
    Bonjour,
    Merci d'avoir contribué
    Je ne sais pas si j'ai les compétences pour faire tout cela mais d'abords. Est-ce vraiment obligatoire ? ou conseillé pour accélérer la prise en compte ? ou un conseil car rien vu dans l'aide Google
    Après qu'est-ce que je dois mettre comme ligne (être sur de ne pas attendre inutilement) ?

    ben oui c'est lourd et je ne vois pas beaucoup de terme récurrent et pas forcément le temps et les compétences dans ce domaine / des résultats attendus

    Ben oui c'est bien cela qui m'affole et départ de mes demandes. Si mon analyse (ancien message) est bonne, il faut donc attendre qu'un max. de apges zombies est disparues car pas vu d'autres choses à faire dans "l'aide" GG

    pas tout compris masi je dois mettre cela en :
    Disallow: /fr/components/ et tout les autres d'ailleurs avec /fr/ devant car l'ancien robot.txt ne mentionne pas /fr/ du à un site multilangue

    Bon encore un site à tester
    BOn je vais essayer mais je m'y perds dans la multitude des outils à utiliser pour gérer un site web !
    Et il faut le comparer à d'autres ou je suis certainement inscrit.
    @+
     
  13. herveD69
    herveD69 Nouveau WRInaute
    Inscrit:
    18 Décembre 2018
    Messages:
    35
    J'aime reçus:
    0
    Bonjour,
    Suite à des discussions en avec quelques personnes, la situation du site parait assez grave!
    J'aurai besoin d'être rassuré par quelques experts seo, sur les solutions que j'ai trouvé ou amélioré par vous, en détaillant les étapes (car je ne suis pas expert dans ce domaine) car le risque est parait-il important de faire pas mal de dégâts :-(
    Merci
     
  14. herveD69
    herveD69 Nouveau WRInaute
    Inscrit:
    18 Décembre 2018
    Messages:
    35
    J'aime reçus:
    0
    Bonjour,
    Petite relance si des experts seo voulaient bien valider mes étapes/ me conseiller :) pour résoudre le problème en évitant de l'aggraver :(

    Etape 1
    je récupère les urls exclues à partir de la console GG dans un fichier csv

    Etape 2
    je fais le ménage en enlevant les bonnes urls dont celle de la page accueil

    Etape 3
    Je mets la liste de ces urls et je crée une page cachée sur le site ou un sitemap renvoyée à GG

    Etape 4
    Je dois faire un redirectpermannt 410 de cette même liste (c'est là ou je ne sais pas si c'est obligatoire, vivement conseillé ...)
     
  15. herveD69
    herveD69 Nouveau WRInaute
    Inscrit:
    18 Décembre 2018
    Messages:
    35
    J'aime reçus:
    0
    Bonjour,
    A priori le titre de la discussion n'est pas correcte car finalement les erreus 404 ne sont pas majoritaires. je ne sais pas si cela a une influence sur le taux de réponse sur ce fil !?
    Je n'arrive pas à le changer si un admin veut bien mettre un terme plus appropriée:
    Anomalie lors de l'exploration -> 2 052
    Exclues Soft 404 -> 498
    Exclues Page en double sans URL canonique sélectionnée par l'utilisateur -> 359
    Exclues Explorée, actuellement non indexée -> 87
    Exclues Exclue par la balise "noindex" -> 32
    Exclues Page en double : Google n'a pas choisi la même URL canonique que l'utilisateur -> 10
    Exclues Page avec redirection -> 10
    Exclues Introuvable (404) -> 5

    Je n'ai tjs pas commencé à appliquer la méthode qui découle de mon analyse. Est-ce que des personnes avec expériences peuvent me confirmer que c'est bon, voir détailler ou donner alternative ?
    merci
    @+
     
  16. herveD69
    herveD69 Nouveau WRInaute
    Inscrit:
    18 Décembre 2018
    Messages:
    35
    J'aime reçus:
    0
Chargement...
Similar Threads - Enlever rapidement milliers Forum Date
Comment enlever les balises HN qui sont auto-générées ? Débuter en référencement 10 Juin 2017
Enlever nom du site à la fin du titre dans Google Référencement Google 26 Février 2017
Comment enlever toutes traces d'un site web? Développement d'un site Web ou d'une appli mobile 27 Janvier 2017
google image, enlever mes concurents YouTube, Google Images et Google Maps 23 Janvier 2017
En PHP, comment enlever les ?id=1 aux URL pour éviter les duplicat content ? Développement d'un site Web ou d'une appli mobile 27 Février 2015
Enlever nos annonces dans les applications/jeux - mobiles/tablettes AdWords 7 Août 2014
Enlever "Traduire cette page" Crawl et indexation Google, sitemaps 24 Décembre 2013
Juste enlever ou desavouer aussi ? Netlinking, backlinks, liens et redirections 18 Décembre 2013
Enlever les saut de ligne dans la META Description Débuter en référencement 3 Décembre 2013
Enlever le index.php? des liens URL Rewriting et .htaccess 20 Novembre 2013
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice