Énigme mortelle : chute de 99% du trafic Google, 0 pénalité

Nouveau WRInaute
Bonjour,

Pour les fêtes de fin d’année, Google nous a fait disparaître d’Internet. Point. Après 20 ans d’existence.

Notre site a une certaine volumétrie : nous faisons plusieurs millions de visiteurs par an, des pics de plusieurs dizaines de milliers de visiteurs par jour.

Malheureusement, nous avons été hackés il y a 2 mois, victime du fameux hack « injection de mots clés japonais ».

Nous avons fait tout le nécessaire pour réparer : installation d’une solution de sécurité, basculement en CDN sécurisé, verrouillage des droits, suppression du contenu parasite, nettoyage de la base de données, suppression de quelques liens pourris, mise à jour complète, etc. Résultat :

https://sitecheck.sucuri.net/results/www.logitheque.com

Le 13 novembre le site est opérationnel, nettoyé, relancé, nous sommes confiants, tout semble bien aller. Seul bémol : les pages référencées chez Google sont les anciennes pages du Hack. Nous savons qu’il faut attendre que Google mette à jour son cache petit à petit. Soit.

Le 18 décembre, 6H du matin : les visites s’écroulent. Le trafic n’est pas divisé par 2 ou 3 ou 5, c’est bien pire. Il disparaît complètement de la source de trafic Google.

Nous avons tout vérifié, tout testé, nous ne comprenons pas :
- aucune pénalité manuelle dans Search Console
- aucun problème de sécurité
- un crawl avec Screaming Frog nous indique que le site est accessible sans soucis : toutes les 200, 301, 4xx sont exactement là où on les attend, les pages sont indexées
- un crawl avec Semrush ne fait rien ressortir
- le site fonctionne parfaitement, accessible à travers tous les navigateurs, les périphériques, testé par VPN
- l’analyse des logs montre que les 2 Googlebot (desktop + mobile) passent bien sur le site à une bonne cadence
- nous avons posté deux messages sur le forum webmaster de Google, sans réponse pertinente

Cela fait une semaine maintenant que nous sommes dans cette situation, nous avons épuisé toutes nos idées :
- il nous est impossible de soumettre notre site à Google pour une revue
- nous n’avons aucune information de qui que ce soit sur ce qu’il se passe
- dans Search Console, Google nous indique une erreur 5xx quand on lui soumet une url pour inspection : cela n’a aucun sens, le site est accessible, les bots ne sont pas bloqués (nous les voyons passer), la page est visible par tous et tous les outils

Nous pensons que c’est la quantité de pages issues du hack qui doivent poser problème, mais il ne semble pas exister de solution pour sortir de cet entre-deux, de ce désert numérique.

Si vous avez été vous aussi victime d’une expérience similaire, ou si vous, ou l’un de vos clients, avez été confronté à ce type de désagrément, nous accueillons vos retours et vos conseils avec la plus grande bienveillance.

Sinon, notre site semble condamné, ce qui est grave avec de lourdes conséquences pour notre équipe.

Merci, portez vous bien et passez de bonnes fêtes,

www.logitheque.com
 
WRInaute passionné
Vous ne suiviez pas des mots-clés pour connaître la position du site dans les SERP ?
Parce qu'il y est toujours, quand on cherche "logitheque" il apparaît bien en 1er, mais sur les mots-clés qui vous ramenaient du monde, il faudrait voir de combien est la chute en terme de position.
Si le trafic venait de certaines pages hackées, regarder si elle sont toujours indexées, si elles ne le sont plus, autant changer leurs urls peut-être, pour qu'elles soient à nouveau indexées, sinon attendre...
 
WRInaute occasionnel
Bon, ce n'est pas une réponse vis à vis de ton problème spécifique, seulement peut-être une des raisons.

J'ai constaté une baisse de visite le 15 décembre, sur un site de voyage qui fait aussi beaucoup d'actus.

J'ai cherché à comprendre et l'article de wri m'a aidé :
Crawl/indexation Google : ce qui a tout changé fin 2020

En fait, quand je fais une recherche avec les mots clés de mon secteur, avant Google mettait en avant les sites spécialisés dans ce secteur, gros ou petit.

Aujourd'hui, il privilégie les articles des très gros sites (le délit de sale gueule ?) même les articles qui ont peu de rapport avec le mot clé, ce qui donne un résultat de piètre qualité.

Pour être plus précis, certains articles de sites spécialisés sont toujours en haut de page, mais arrivé vers la fin de la 1ere page Google et les autres, ce n'est plus les articles moins important mais toujours liés au mot clé qui apparaissent, mais des articles de très gros sites loin du mots clé donné.

Pour prendre un exemple à la con, imagine que tu fais une recherche actualité sur les motos, les premiers résultats vont mener vers des articles de sites spécialisés sur la moto ou d'autres qui parlent vraiment de moto et la fin tu aura des articles de gros sites qui n'ont pas grand chose à voir, du genre le gros site de Voici : "Mimi Mati à un nouvel amant", et même pas dans le titre mais juste une phrase dans l'article "il a une jolie moto".

Donc, les articles moins importants, mais qui peuvent aussi être intéressant sont exclues des résultats au profit d'articles loin du sujet venant des gros sites, avec toujours cette volonté d'enrichir les plus riches et d'écraser les petits.

Enfin, c'est ce que j'ai pu constater dans mon secteur, je ne sais pas si d'autres vont dans le même sens.
 
Dernière édition:
WRInaute accro
Il ne faut pas oublier de tester le site et de corriger ensuite les problèmes, là sur une page au hasard, page speed me sort un score de 10 en mobile, ce qui pourrait avoir une incidence, Google privilégiant maintenant le mobile first index :
https://developers.google.com/speed...ogitheque.com/windows/furiod-39056&tab=mobile

Ce n'est pas mieux sur la page d'accueil avec un score mobile de 11 :
https://developers.google.com/speed/pagespeed/insights/?hl=fr&url=https://www.logitheque.com/

Selon Google : Les données de terrain recueillies au cours des 28 derniers jours indiquent que cette page ne passe pas le test d'évaluation du rapport Signaux Web essentiels.
 
Nouveau WRInaute
Bonjour,

En fait nous soupçonnons un problème lié au crawl des pages par l'agent mobile de Google. En effet, quand nous essayons de lancer une indexation, nous avons en retour une erreur 5XX. Nous ne savons pas à quoi cela c'est dû, puisque nous voyons bien les hit des bots dans les logs.

Nous savons que le site peut et doit être optimisé, mais perdre 99% du trafic de Google est à priori dû à une erreur de configuration quelque part, qui est inexpliquée pour le moment car les outils se contredisent...
 
WRInaute accro
L'erreur 500 doit apparaitre dans les log du site normalement. Cela n'empêche pas que le score mobile (Google a bien crawlé la page sans erreurs) est à améliorer. Peut-être commencer par désactiver les plugins, tester et les réactiver un par un en testant à chaque fois, cela permettra d'éliminer le fait qu'un plugin est peut-être responsable.

J'ai vu que tu avais aussi posé la question sur WW :)
https://www.webmasterworld.com/google/5021218.htm
 
Olivier Duffez (admin)
Membre du personnel
je viens de faire le test mobile sur la home, résultat :

Testé le : 26 déc. 2020 à 12:04
Page inaccessible
Il est possible que la page soit indisponible ou bloquée par un fichier robots.txt.

pourtant le robots.txt ne semble pas le bloquer
y'aurait pas des traitements sur le serveur en fonction de l'IP ? pas de CDN ?
 
Nouveau WRInaute
Tout porte à croire que quelque chose bloque au niveau du CDN ou du serveur, mais pour l'instant nous n'avons pas trouvé. En effet le test mobile ne passe pas, tout comme les demandes d'indexation. Le plus étonnant est que nous enregistrons bien les hits. L'équipe technique qui est derrière va me donner plus d'infos dans les heures qui viennent, je vous tiendrai au courant.
 
WRInaute occasionnel
J'ai regardé dans Babbar.tech, on a environ 10k pages de ton site dans notre index, et pour 30% environ on a eu des socket_timeout au crawl, ça veut dire qu'au bout de 90 secondes d'attente ton serveur n'a toujours pas envoyé le moindre octet (c'est aussi la raison des mesures que @Furtif présente au dessus). Généralement c'est un problème au noveau de l'hébergeur. A t-il été changé récemment ? ou alors nouvelles machine ou datacenter ?
Chez certains hébergeurs ce problème est récurrent, mais chez OVH ça ne me parait pas etre le cas habituellement.
 
Nouveau WRInaute
Bonjour,
Nous avons juste mis en place un CDN suite au piratage. Nous n'avons pas changé d'hébergeur et nous continuons à creuser. J'espère en dire plus très bientôt car nous attendons le retour de techniciens sur le sujet.
 
WRInaute passionné
Il y a des problèmes sur Desktop, le site ne s'affiche pas proprement car un fichier CSS manque (en cache de WP) (mais il est accessible en langue anglaise, allemande ou espagnole...):
logitheque-com.jpg

Il y a d'ailleurs des caractères illisibles en UTF dans le CSS "de base" pour les définitions des symboles FontAwesome.
Un autre fichier est inaccessible:
Code:
<script data-minify="1" async="async" src="https://www.logitheque.com/wp-content/cache/min/4/adsense/search/ads-83faf3e915f01351ca5269fa1ace24db.js"></script>

Ce truc me chiffone dans le HEAD:
Code:
<meta http-equiv="Content-Security-Policy" content="upgrade-insecure-requests">

En fait, plusieurs fichiers (css et js) sont absents de la version française, mais valides pour les autres langues... Il ne manquerait pas un /fr/ dans les url française??? (les autres ont /de, /en, /es...)
 
Nouveau WRInaute
Bonjour,

Oui nous l'avons détecté également et corrigé dans la foulée.

En revanche, même si nous pouvons de nouveau être crawlés par l'agent mobile et donc être indexés, rien n'a changé au niveau du trafic. La situation semble bloquée et nous n'avons plus de recours possible pour le moment...
 
Nouveau WRInaute
La mise à jour de Search Console a montré l'ampleur des dégâts: Maintenant l'outil détecte 8 Millions de 404, ce qui ne laisse plus trop de place pour le reste.
2021-01-12-14_12_29-Window.png

Les erreurs sont également des 404 mais déclarées en erreurs 5XX, tandis que les Url valides (loin de monter à 1 Million) sont indexées mais non envoyées par un sitemap.
En d'autres termes, Google voit un domaine noyé sous les 404 et doit certainement penser que le site ne propose que ce type de pages aux visiteurs. Du moins c'est notre hypothèse.
Autre souci, les url à problèmes ont été ajoutées ex-nihilo et nous ne pouvons pas bloquer la source ni faire plus que ce que nous avons fait...Bref, nous sommes dans une impasse.
 
Olivier Duffez (admin)
Membre du personnel
je n'ai pas compris grand chose.
depuis tout ce temps, aucune solution n'a été trouvée pour assurer que Google obtienne un code 200 et une page rapide ?
 
Nouveau WRInaute
Les pages sont "rapides", en 200 et sont affichées lorsque on effectue un test mobile. Mais maintenant nous n'avons ni récupéré de positions, ni pu dire à Google que nous avions nettoyé le site, ce qui fait qu'il a toujours 9 millions de pages en base, dont 8.7 M de 404. C'est un casse-tête.
 
WRInaute occasionnel
Ces 404, elles correspondent à des pages qui n'existent pas, ou à des pages qui n'existent plus ?
 
Olivier Duffez (admin)
Membre du personnel
@sypsyp conseilles-tu de laisser un code 200 avec du noindex (car Google désindexe plus vite que pour une 410), au moins temporairement pour nettoyer ?
 
Nouveau WRInaute
Le problème est que ces pages n'ont pas d'existence physique. Elles ont eu une vie très courte.
La bonne nouvelle c'est quand même que depuis hier nous revenons dans l'index de Google. Nous avons eu un premier espoir en voyant que les sitemaps étaient de nouveaux utilisés comme source et effectivement, le trafic a commencé à remonter hier. Je vous en dirai plus bientôt.
 
WRInaute occasionnel
Dans tous les cas je ne renverrais pas un 404 qui est "n'existe plus mais peut revenir", donc soit des 410 soit la solution d'Olivier au moins provisoirement.
Mais c'est pour accelerer la prise en compte, car GG connait le hack dit "japonais" donc ça reviendra, le pb c'est la volumétrie qui fait que le crwaler carbonise son quota de crawl sur des pages non existantes et n'a pas le temps de trouver les pages importantes et légitimes.
 
Olivier Duffez (admin)
Membre du personnel
tu vois une autre solution à court terme ? (pour optimiser le crawl, le concentrer sur les URL réelles)
 
WRInaute occasionnel
tu vois une autre solution à court terme ? (pour optimiser le crawl, le concentrer sur les URL réelles)

La seule autre solution que je vois est sans doute beaucoup trop dangereuse (en utilisant des schémas de redirect pour garantir qu'à chaque session de crawl le bot passe par des pages légitimes).
 
Nouveau WRInaute
Donc vous penchez plus pour une 410? Nous nous sommes posés la question et avons opté pour la 404 qui collait plus à la réalité.
Un schéma de redirection nous paraît quand même bien risqué...
 
Discussions similaires
Haut