Énigme mortelle : chute de 99% du trafic Google, 0 pénalité

Discussion dans 'Problèmes de référencement spécifiques à vos sites' créé par logitheque.com, 24 Décembre 2020.

  1. logitheque.com
    logitheque.com Nouveau WRInaute
    Inscrit:
    8 Janvier 2013
    Messages:
    13
    J'aime reçus:
    0
    Bonjour,

    Pour les fêtes de fin d’année, Google nous a fait disparaître d’Internet. Point. Après 20 ans d’existence.

    Notre site a une certaine volumétrie : nous faisons plusieurs millions de visiteurs par an, des pics de plusieurs dizaines de milliers de visiteurs par jour.

    Malheureusement, nous avons été hackés il y a 2 mois, victime du fameux hack « injection de mots clés japonais ».

    Nous avons fait tout le nécessaire pour réparer : installation d’une solution de sécurité, basculement en CDN sécurisé, verrouillage des droits, suppression du contenu parasite, nettoyage de la base de données, suppression de quelques liens pourris, mise à jour complète, etc. Résultat :

    https://sitecheck.sucuri.net/results/www.logitheque.com

    Le 13 novembre le site est opérationnel, nettoyé, relancé, nous sommes confiants, tout semble bien aller. Seul bémol : les pages référencées chez Google sont les anciennes pages du Hack. Nous savons qu’il faut attendre que Google mette à jour son cache petit à petit. Soit.

    Le 18 décembre, 6H du matin : les visites s’écroulent. Le trafic n’est pas divisé par 2 ou 3 ou 5, c’est bien pire. Il disparaît complètement de la source de trafic Google.

    Nous avons tout vérifié, tout testé, nous ne comprenons pas :
    - aucune pénalité manuelle dans Search Console
    - aucun problème de sécurité
    - un crawl avec Screaming Frog nous indique que le site est accessible sans soucis : toutes les 200, 301, 4xx sont exactement là où on les attend, les pages sont indexées
    - un crawl avec Semrush ne fait rien ressortir
    - le site fonctionne parfaitement, accessible à travers tous les navigateurs, les périphériques, testé par VPN
    - l’analyse des logs montre que les 2 Googlebot (desktop + mobile) passent bien sur le site à une bonne cadence
    - nous avons posté deux messages sur le forum webmaster de Google, sans réponse pertinente

    Cela fait une semaine maintenant que nous sommes dans cette situation, nous avons épuisé toutes nos idées :
    - il nous est impossible de soumettre notre site à Google pour une revue
    - nous n’avons aucune information de qui que ce soit sur ce qu’il se passe
    - dans Search Console, Google nous indique une erreur 5xx quand on lui soumet une url pour inspection : cela n’a aucun sens, le site est accessible, les bots ne sont pas bloqués (nous les voyons passer), la page est visible par tous et tous les outils

    Nous pensons que c’est la quantité de pages issues du hack qui doivent poser problème, mais il ne semble pas exister de solution pour sortir de cet entre-deux, de ce désert numérique.

    Si vous avez été vous aussi victime d’une expérience similaire, ou si vous, ou l’un de vos clients, avez été confronté à ce type de désagrément, nous accueillons vos retours et vos conseils avec la plus grande bienveillance.

    Sinon, notre site semble condamné, ce qui est grave avec de lourdes conséquences pour notre équipe.

    Merci, portez vous bien et passez de bonnes fêtes,

    www.logitheque.com
     
  2. rick38
    rick38 WRInaute passionné
    Inscrit:
    23 Février 2013
    Messages:
    1 732
    J'aime reçus:
    262
    Vous ne suiviez pas des mots-clés pour connaître la position du site dans les SERP ?
    Parce qu'il y est toujours, quand on cherche "logitheque" il apparaît bien en 1er, mais sur les mots-clés qui vous ramenaient du monde, il faudrait voir de combien est la chute en terme de position.
    Si le trafic venait de certaines pages hackées, regarder si elle sont toujours indexées, si elles ne le sont plus, autant changer leurs urls peut-être, pour qu'elles soient à nouveau indexées, sinon attendre...
     
  3. DomTo
    DomTo WRInaute occasionnel
    Inscrit:
    30 Août 2016
    Messages:
    332
    J'aime reçus:
    28
    Bon, ce n'est pas une réponse vis à vis de ton problème spécifique, seulement peut-être une des raisons.

    J'ai constaté une baisse de visite le 15 décembre, sur un site de voyage qui fait aussi beaucoup d'actus.

    J'ai cherché à comprendre et l'article de wri m'a aidé :
    Crawl/indexation Google : ce qui a tout changé fin 2020

    En fait, quand je fais une recherche avec les mots clés de mon secteur, avant Google mettait en avant les sites spécialisés dans ce secteur, gros ou petit.

    Aujourd'hui, il privilégie les articles des très gros sites (le délit de sale gueule ?) même les articles qui ont peu de rapport avec le mot clé, ce qui donne un résultat de piètre qualité.

    Pour être plus précis, certains articles de sites spécialisés sont toujours en haut de page, mais arrivé vers la fin de la 1ere page Google et les autres, ce n'est plus les articles moins important mais toujours liés au mot clé qui apparaissent, mais des articles de très gros sites loin du mots clé donné.

    Pour prendre un exemple à la con, imagine que tu fais une recherche actualité sur les motos, les premiers résultats vont mener vers des articles de sites spécialisés sur la moto ou d'autres qui parlent vraiment de moto et la fin tu aura des articles de gros sites qui n'ont pas grand chose à voir, du genre le gros site de Voici : "Mimi Mati à un nouvel amant", et même pas dans le titre mais juste une phrase dans l'article "il a une jolie moto".

    Donc, les articles moins importants, mais qui peuvent aussi être intéressant sont exclues des résultats au profit d'articles loin du sujet venant des gros sites, avec toujours cette volonté d'enrichir les plus riches et d'écraser les petits.

    Enfin, c'est ce que j'ai pu constater dans mon secteur, je ne sais pas si d'autres vont dans le même sens.
     
    #3 DomTo, 25 Décembre 2020
    Dernière édition: 25 Décembre 2020
  4. cthierry
    cthierry WRInaute passionné
    Inscrit:
    15 Janvier 2005
    Messages:
    2 305
    J'aime reçus:
    63
    Il ne faut pas oublier de tester le site et de corriger ensuite les problèmes, là sur une page au hasard, page speed me sort un score de 10 en mobile, ce qui pourrait avoir une incidence, Google privilégiant maintenant le mobile first index :
    https://developers.google.com/speed...ogitheque.com/windows/furiod-39056&tab=mobile

    Ce n'est pas mieux sur la page d'accueil avec un score mobile de 11 :
    https://developers.google.com/speed/pagespeed/insights/?hl=fr&url=https://www.logitheque.com/

    Selon Google : Les données de terrain recueillies au cours des 28 derniers jours indiquent que cette page ne passe pas le test d'évaluation du rapport Signaux Web essentiels.
     
  5. logitheque.com
    logitheque.com Nouveau WRInaute
    Inscrit:
    8 Janvier 2013
    Messages:
    13
    J'aime reçus:
    0
    Bonjour,

    En fait nous soupçonnons un problème lié au crawl des pages par l'agent mobile de Google. En effet, quand nous essayons de lancer une indexation, nous avons en retour une erreur 5XX. Nous ne savons pas à quoi cela c'est dû, puisque nous voyons bien les hit des bots dans les logs.

    Nous savons que le site peut et doit être optimisé, mais perdre 99% du trafic de Google est à priori dû à une erreur de configuration quelque part, qui est inexpliquée pour le moment car les outils se contredisent...
     
  6. cthierry
    cthierry WRInaute passionné
    Inscrit:
    15 Janvier 2005
    Messages:
    2 305
    J'aime reçus:
    63
    L'erreur 500 doit apparaitre dans les log du site normalement. Cela n'empêche pas que le score mobile (Google a bien crawlé la page sans erreurs) est à améliorer. Peut-être commencer par désactiver les plugins, tester et les réactiver un par un en testant à chaque fois, cela permettra d'éliminer le fait qu'un plugin est peut-être responsable.

    J'ai vu que tu avais aussi posé la question sur WW :)
    https://www.webmasterworld.com/google/5021218.htm
     
  7. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 394
    J'aime reçus:
    590
    je viens de faire le test mobile sur la home, résultat :

    Testé le : 26 déc. 2020 à 12:04
    Page inaccessible
    Il est possible que la page soit indisponible ou bloquée par un fichier robots.txt.

    pourtant le robots.txt ne semble pas le bloquer
    y'aurait pas des traitements sur le serveur en fonction de l'IP ? pas de CDN ?
     
  8. logitheque.com
    logitheque.com Nouveau WRInaute
    Inscrit:
    8 Janvier 2013
    Messages:
    13
    J'aime reçus:
    0
    Tout porte à croire que quelque chose bloque au niveau du CDN ou du serveur, mais pour l'instant nous n'avons pas trouvé. En effet le test mobile ne passe pas, tout comme les demandes d'indexation. Le plus étonnant est que nous enregistrons bien les hits. L'équipe technique qui est derrière va me donner plus d'infos dans les heures qui viennent, je vous tiendrai au courant.
     
  9. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 394
    J'aime reçus:
    590
    je suppose qu'un des crawlers de Google est bloqué par un CDN, et ça met tout par terre...
     
  10. Furtif
    Furtif WRInaute accro
    Inscrit:
    9 Août 2005
    Messages:
    2 862
    J'aime reçus:
    247
    Une majorité d'urls sont en "connection timeout"

    logitheque_resize.jpg

    35.9s
    Fully Loaded Time
     
  11. sypsyp
    sypsyp WRInaute occasionnel
    Inscrit:
    10 Juillet 2009
    Messages:
    298
    J'aime reçus:
    6
    J'ai regardé dans Babbar.tech, on a environ 10k pages de ton site dans notre index, et pour 30% environ on a eu des socket_timeout au crawl, ça veut dire qu'au bout de 90 secondes d'attente ton serveur n'a toujours pas envoyé le moindre octet (c'est aussi la raison des mesures que @Furtif présente au dessus). Généralement c'est un problème au noveau de l'hébergeur. A t-il été changé récemment ? ou alors nouvelles machine ou datacenter ?
    Chez certains hébergeurs ce problème est récurrent, mais chez OVH ça ne me parait pas etre le cas habituellement.
     
  12. logitheque.com
    logitheque.com Nouveau WRInaute
    Inscrit:
    8 Janvier 2013
    Messages:
    13
    J'aime reçus:
    0
    Bonjour,
    Nous avons juste mis en place un CDN suite au piratage. Nous n'avons pas changé d'hébergeur et nous continuons à creuser. J'espère en dire plus très bientôt car nous attendons le retour de techniciens sur le sujet.
     
  13. anemone-clown
    anemone-clown WRInaute passionné
    Inscrit:
    11 Novembre 2007
    Messages:
    1 602
    J'aime reçus:
    21
    Il y a des problèmes sur Desktop, le site ne s'affiche pas proprement car un fichier CSS manque (en cache de WP) (mais il est accessible en langue anglaise, allemande ou espagnole...):
    [​IMG]
    Il y a d'ailleurs des caractères illisibles en UTF dans le CSS "de base" pour les définitions des symboles FontAwesome.
    Un autre fichier est inaccessible:
    Code:
    <script data-minify="1" async="async" src="https://www.logitheque.com/wp-content/cache/min/4/adsense/search/ads-83faf3e915f01351ca5269fa1ace24db.js"></script>
    Ce truc me chiffone dans le HEAD:
    Code:
    <meta http-equiv="Content-Security-Policy" content="upgrade-insecure-requests">
    En fait, plusieurs fichiers (css et js) sont absents de la version française, mais valides pour les autres langues... Il ne manquerait pas un /fr/ dans les url française??? (les autres ont /de, /en, /es...)
     
  14. logitheque.com
    logitheque.com Nouveau WRInaute
    Inscrit:
    8 Janvier 2013
    Messages:
    13
    J'aime reçus:
    0
    Bonjour,

    Oui nous l'avons détecté également et corrigé dans la foulée.

    En revanche, même si nous pouvons de nouveau être crawlés par l'agent mobile et donc être indexés, rien n'a changé au niveau du trafic. La situation semble bloquée et nous n'avons plus de recours possible pour le moment...
     
  15. logitheque.com
    logitheque.com Nouveau WRInaute
    Inscrit:
    8 Janvier 2013
    Messages:
    13
    J'aime reçus:
    0
    La mise à jour de Search Console a montré l'ampleur des dégâts: Maintenant l'outil détecte 8 Millions de 404, ce qui ne laisse plus trop de place pour le reste.[​IMG]
    Les erreurs sont également des 404 mais déclarées en erreurs 5XX, tandis que les Url valides (loin de monter à 1 Million) sont indexées mais non envoyées par un sitemap.
    En d'autres termes, Google voit un domaine noyé sous les 404 et doit certainement penser que le site ne propose que ce type de pages aux visiteurs. Du moins c'est notre hypothèse.
    Autre souci, les url à problèmes ont été ajoutées ex-nihilo et nous ne pouvons pas bloquer la source ni faire plus que ce que nous avons fait...Bref, nous sommes dans une impasse.
     
  16. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 394
    J'aime reçus:
    590
    je n'ai pas compris grand chose.
    depuis tout ce temps, aucune solution n'a été trouvée pour assurer que Google obtienne un code 200 et une page rapide ?
     
  17. logitheque.com
    logitheque.com Nouveau WRInaute
    Inscrit:
    8 Janvier 2013
    Messages:
    13
    J'aime reçus:
    0
    Les pages sont "rapides", en 200 et sont affichées lorsque on effectue un test mobile. Mais maintenant nous n'avons ni récupéré de positions, ni pu dire à Google que nous avions nettoyé le site, ce qui fait qu'il a toujours 9 millions de pages en base, dont 8.7 M de 404. C'est un casse-tête.
     
  18. sypsyp
    sypsyp WRInaute occasionnel
    Inscrit:
    10 Juillet 2009
    Messages:
    298
    J'aime reçus:
    6
    Ces 404, elles correspondent à des pages qui n'existent pas, ou à des pages qui n'existent plus ?
     
  19. logitheque.com
    logitheque.com Nouveau WRInaute
    Inscrit:
    8 Janvier 2013
    Messages:
    13
    J'aime reçus:
    0
    Ce sont des pages de spam qui ont eu une courte existence durant le piratage mais qui n'existent plus.
     
  20. sypsyp
    sypsyp WRInaute occasionnel
    Inscrit:
    10 Juillet 2009
    Messages:
    298
    J'aime reçus:
    6
    Mais tu n'as rien fait d'autre que les supprimer ? pourquoi renvoyer une 404, il y a une raison particulière ? Pourquoi pas une 410 par exemple ?
     
  21. logitheque.com
    logitheque.com Nouveau WRInaute
    Inscrit:
    8 Janvier 2013
    Messages:
    13
    J'aime reçus:
    0
    Nous les avons reniées, tout simplement.
     
  22. sypsyp
    sypsyp WRInaute occasionnel
    Inscrit:
    10 Juillet 2009
    Messages:
    298
    J'aime reçus:
    6
    Je ne sais pas ce que tu veux dire par là.
     
  23. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 394
    J'aime reçus:
    590
    @sypsyp conseilles-tu de laisser un code 200 avec du noindex (car Google désindexe plus vite que pour une 410), au moins temporairement pour nettoyer ?
     
  24. logitheque.com
    logitheque.com Nouveau WRInaute
    Inscrit:
    8 Janvier 2013
    Messages:
    13
    J'aime reçus:
    0
    Le problème est que ces pages n'ont pas d'existence physique. Elles ont eu une vie très courte.
    La bonne nouvelle c'est quand même que depuis hier nous revenons dans l'index de Google. Nous avons eu un premier espoir en voyant que les sitemaps étaient de nouveaux utilisés comme source et effectivement, le trafic a commencé à remonter hier. Je vous en dirai plus bientôt.
     
  25. sypsyp
    sypsyp WRInaute occasionnel
    Inscrit:
    10 Juillet 2009
    Messages:
    298
    J'aime reçus:
    6
    Dans tous les cas je ne renverrais pas un 404 qui est "n'existe plus mais peut revenir", donc soit des 410 soit la solution d'Olivier au moins provisoirement.
    Mais c'est pour accelerer la prise en compte, car GG connait le hack dit "japonais" donc ça reviendra, le pb c'est la volumétrie qui fait que le crwaler carbonise son quota de crawl sur des pages non existantes et n'a pas le temps de trouver les pages importantes et légitimes.
     
  26. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 394
    J'aime reçus:
    590
    tu vois une autre solution à court terme ? (pour optimiser le crawl, le concentrer sur les URL réelles)
     
  27. sypsyp
    sypsyp WRInaute occasionnel
    Inscrit:
    10 Juillet 2009
    Messages:
    298
    J'aime reçus:
    6
    La seule autre solution que je vois est sans doute beaucoup trop dangereuse (en utilisant des schémas de redirect pour garantir qu'à chaque session de crawl le bot passe par des pages légitimes).
     
  28. logitheque.com
    logitheque.com Nouveau WRInaute
    Inscrit:
    8 Janvier 2013
    Messages:
    13
    J'aime reçus:
    0
    Donc vous penchez plus pour une 410? Nous nous sommes posés la question et avons opté pour la 404 qui collait plus à la réalité.
    Un schéma de redirection nous paraît quand même bien risqué...
     
Chargement...
Similar Threads - Énigme mortelle chute Forum Date
WordPress L' énigme de la police "thin" de la H2 qui reste en gras Développement d'un site Web ou d'une appli mobile 8 Février 2019
enigme Demandes d'avis et de conseils sur vos sites 17 Avril 2012
[Jeu] Topic d'énigmes Le café de WebRankInfo 19 Août 2011
Don d'énigme Développement d'un site Web ou d'une appli mobile 9 Août 2011
Enigme ? Débuter en référencement 3 Septembre 2010
petite énigme sur le ref d'un site Référencement Google 28 Août 2010