Suprression de 1 000 000 urls

Discussion dans 'Problèmes de référencement spécifiques à vos sites' créé par fneuenschwander, 24 Septembre 2015.

  1. fneuenschwander

    fneuenschwander Nouveau WRInaute

    Inscrit:
    4 Mars 2013
    Messages:
    9
    J'aime reçus:
    0
    A tous,

    Après un long audit d'un site web, j'en suis arrivé à la conclusion qu'il fallait que je supprime plus de 1 000 000 d'urls complétements inutiles sur mon site. La décision est prise mais j'aimerai savoir s'il existe un moyen pour pas trop me faire griller par Google ?
    En effet, si je supprime toutes ces pages, il va y avoir des erreurs 404 dans tous les sens. Est-ce qu'il y a un moyen de supprimer des urls de façon "propre"

    Merci à tous
     
  2. HawkEye

    HawkEye WRInaute accro

    Inscrit:
    23 Février 2004
    Messages:
    18 166
    J'aime reçus:
    0
    301 vers les pages les plus pertinentes par rapport à la 404

    ou

    404 "intelligente", proposant des pages proches de la demande
     
  3. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 824
    J'aime reçus:
    7
    si elles sont toutes dans un même répertoire, c'est très facile (*), sinon moins (en tout cas dans ce 2nd cas ça peut être long)

    * tu mets un Disallow du répertoire dans le fichier robots.txt puis tu en demandes la désindexation dans Search Console

    au fait, il a combien d'URL le site ?
     
  4. fneuenschwander

    fneuenschwander Nouveau WRInaute

    Inscrit:
    4 Mars 2013
    Messages:
    9
    J'aime reçus:
    0
    J'avais pensé au début à faire une redirection intelligente "404", mais est-ce que ça ne serait pas un signal assez négatif aux yeux de google ? Plus de 1 000 000 d'url en erreur 404 du jour au lendemain ? Même si je le fais petit à petit pas sûr que cela soit positif.
    De plus, l'idée de cette suppression d'url est de laisser un temps de crawl plus important à GoogleBot aux URLS qui en valent plus le coup.
     
  5. HawkEye

    HawkEye WRInaute accro

    Inscrit:
    23 Février 2004
    Messages:
    18 166
    J'aime reçus:
    0
    Un NoIndex / Disallow pur et dur va te stériliser complètement ces pages, d'un seul coup.
    Elles apportent probablement du trafic, même si c'est peu, et elles ont - qu'on le veuille ou non - du jus à transmettre (peut être mal, mais tout de même).

    Des redirections 301 te permettraient de renvoyer une partie de ce "jus" vers d'autres pages.
    Attention... j'ai parlé de pages pertinentes: si tu rediriges 1M pages vers 200K autres pages, ça passe... mais si c'est pour renvoyer 1M pages vers 5 pages de type "la catégorie à laquelle la page morte appartenait"... ça passera moins bien.

    ...et dans ce second cas, quitte à perdre leur jus, ne perds pas leur trafic: une 404 reste une page crawlée et "analysable", elle renvoie des signaux. Ton visiteur tombe dessus, il lui est proposé une série d'autres pages valables et cohérentes avec ce que tu as pu analyser comme info (depuis l'URL, depuis un id, depuis ce qu'il te reste en DB à propos de cette page), et continue sa visite, ce qui a un impact sur pas mal d'indicateurs.
     
  6. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 824
    J'aime reçus:
    7
    qui te dit que ces pages avaient du jus ? (autre que le maillage interne)
     
  7. fneuenschwander

    fneuenschwander Nouveau WRInaute

    Inscrit:
    4 Mars 2013
    Messages:
    9
    J'aime reçus:
    0
    Ces URls n'apportent justement aucun trafic organique. c'est pour ça que je les ai sélectionné.
    J'ai gardé les 20 000 urls du même type qui elles apportent du trafic. J'ai récupéré toutes les urls de ce type depuis 2011, et seulement 20 000 apportent du trafic organique.

    Le but étant de justement éviter Google a perdre son temps sur 1 000 000 d'url qui ne servent à rien et passer plus de temps à crawler des pages que j'aimerai ranker. En analysant les logs serveurs je me suis rendu compte que Googlebot passe beaucoup trop de temps dessus et très peu sur les autres urls.
     
  8. HawkEye

    HawkEye WRInaute accro

    Inscrit:
    23 Février 2004
    Messages:
    18 166
    J'aime reçus:
    0
    Rien ne permet de l'affirmer avec certitude, mais si c'est le cas (ne fût-ce qu'un peu...), ce serait dommage de s'en passer ;)

    J'ai bien compris ton intention. La 301 va désindexer tes pages (au profit d'autres pages): elles ne seront rapidement plus crawlées.
     
  9. Madrileño

    Madrileño Madribot

    Inscrit:
    7 Juillet 2004
    Messages:
    37 798
    J'aime reçus:
    12
    Bonjour,

    N'hésitez pas à présenter le site pour des avis plus précis.
    Sinon vu le chantier (indiqué avec le sujet), un bon nettoyage devrait être bien.

    Cordialement.
     
  10. fneuenschwander

    fneuenschwander Nouveau WRInaute

    Inscrit:
    4 Mars 2013
    Messages:
    9
    J'aime reçus:
    0
    Merci à tous pour vos réponses.
    Je pense que je vais opter pour la désindexation pur et dure (étant donné qu'il n'y a aucun jus sur ces urls).
    Je vais probablement le faire petit à petit, environ 100 000 urls par semaine et voir ce que ça donne.

    je vous tiendrai au courant de l'avancée des choses.

    PS : dernière question, si je mets la balise "noindex, follow" pensez-vous que cela pourrait résoudre mon problème ?
     
  11. indigene

    indigene WRInaute accro

    Inscrit:
    7 Septembre 2003
    Messages:
    3 247
    J'aime reçus:
    0
    Non.
    Car si ces pages reçoivent elles-mêmes des liens, google viendra toujours les crawler. Il viendra les voir juste pour s'assurer que la balise meta n'a pas changé et pour suivre les liens que ces pages contiennent, au cas où le contenu de ces pages change.

    Si ton problème est d'empêcher google de venir visiter ces pages pour s'occuper un peu plus des pages plus importantes, il faut, en plus, que ces pages ne reçoivent plus aucun lien interne.

    Mais là encore ça ne va pas suffire car maintenant qu'elles sont connues de google, il va toujours y revenir.
    Il faudrait donc qu'elles retournent un code 410 pour indiquer à google qu'elles ont été supprimées. ou un code 301 pour indiquer qu'elles ont été déplacées définitivement. Google viendra ensuite les revisiter à maintes reprises pour s'assurer que cette réponse est maintenue dans le temps. Et quand il en aura la certitude il ne viendra plus.
     
  12. astus

    astus WRInaute discret

    Inscrit:
    18 Février 2004
    Messages:
    99
    J'aime reçus:
    0
    Je confirme indigene.

    J'ai un site de plus de 2 millions de pages, dont certaines disparaissent régulièrement.
    Même avec des 410, google les crawl et les met en erreur dans gmt au bout de plus d'un an, même s'il n'y a plus aucun lien interne et externe.
     
  13. indigene

    indigene WRInaute accro

    Inscrit:
    7 Septembre 2003
    Messages:
    3 247
    J'aime reçus:
    0
    oui, il retourne les voir régulièrement car google n'oublie rien. Une fois qu'il a eut connaissance d'une url il va toujours revenir la voir. Mais il espace ses visites. Parfois il peut revenir seulement tous les 6 mois ou encore moins. Il ajuste la fréquence de ses crawl en fonction de la vie de chaque page. Si aujourd'hui il vient visiter la page toutes les semaines, avec un code 410 il va espacer ses visites.
    C'est comme dans un forum, il ne crawl pas aussi souvent les posts très anciens que les posts d'il y a quelques jours.
     
  14. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    ATTENTION : je l'ai fait (404) . NE FAIT JAMAIS ÇA, je t'expliques ;
    j'ai changé pour la deuxième fois il y a pas mal de mois ma structure. J'ai déplacé 4 millions de pages sur 10 millions, j'ai laissé en 404 pour que google les effaces. Vu que c'est sous 1000 répertoires différents, je n'ai pas voulu charger le fichier HTACCESS.

    Ca été très vite la cata; perte de 40% du trafic en quelques jours. J'ai donc tout remis a sa place, mon trafic a mis plus de 3 mois pour revenir a la normale. J'ai ensuite trouvé une formule pour déplacer répertoires et sous répertoires, et sous sous... avec une redirection 302 vers une nouvelle forme d'url, en test SEO. Ca n'a rien changé. Du coup, je suis revenu a la normale (au début) avec des redirections des nouveaux répertoires vers les anciens. ca n'a rien changé, mais finalement, j'aurais mieux fait de ne rien faire. Il a fallu 6 mois au total pour revenir exactement au même trafic.

    je te conseille très vivement des redirections par gourpe si tu peux, jamais de 404. au mieux, je laisse, et je met no-index sur les pages, tu pourra le virer si ton trafic baisse, sans rien changer.
     
  15. fneuenschwander

    fneuenschwander Nouveau WRInaute

    Inscrit:
    4 Mars 2013
    Messages:
    9
    J'aime reçus:
    0
    Mais est-ce que tes pages à la base recevaient du trafic ? Cela expliquerait peut-être la perte de trafic de 40%.
    Alors que dans mon cas ces pages là ne reçoivent absolument 0 trafic et ce depuis 2011
     
  16. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    pas toutes. Certaines ne recevaient plus de trafic car les urls avaient changées dans le temps, puisque le site a 19 ans d'existance et si mes souvenir sont bon, sous ce domaine depuis 2006. Lors du changement de structure, j'ai changé de serveur, et toutes les pages ont été régénérées puisque ce sont toutes des pages statiques régénérées par mon application chaque semaine. Donc, toutes les anciennes pages n'ont pas été régénérées , en plus d'avoir changé de structure.

    Mais bref, evite a tout prix de balancer a google un signal d'erreurs 404 qui monte en flèche. Cela dit, on s'en remet si tu veux tenter l'expérience ...

    Et presque 1 an après, ce n'est toujours pas 100% terminé chez moi. Google me trouve des 404 tous les jours, au rythme d'une trentaine, ce qui est peu. Cela signifie qu'il passe sur certaines pages moins consultées plus rarement que d'autres.
     
  17. fneuenschwander

    fneuenschwander Nouveau WRInaute

    Inscrit:
    4 Mars 2013
    Messages:
    9
    J'aime reçus:
    0
    Je ne vais pas tenter l'expérience :)
    Je vais donc opter pour la redirection 301 intelligente

    Merci à tous pour vos conseils
     
  18. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    1million de pages zéro trafic, je te conseille avant de toucher de prendre un audit auprès d'un vrai expert, même payant.
    Ce serait une perte énorme, si tu les supprimes, en potentiel. Il vaut mieux exploiter leur présence dans les data de google.

    Il suffit tellement de peu parfois... dommage qu'il n'y a pas l'url du site.