Dur, dur, pénalité pour spam...

WRInaute accro
Bonjour

Mon site : https://www.pronostics-courses.fr

Hier soir, reçu mail de Google : Mon site contient des contenus inintéressants, répétitifs, et est maintenant classé "spammé".

Dans le mail, il y a même l'indication que mes page sont générées automatiquement ( ce sont des stats ).

Toutes mes pages sont effectivement similaires, mais différentes, en faisant attention aux données chiffrées qui y figurent.

A la rigueur, mes trois pages : "Méthode d 'Utilisation des Statistiques", sont les mêmes.

Aussi, il se peut qu'alternativement, les courses du lendemain et de l'après-midi soient quasiment identiques.

Que faire ?

Mon site fidélisait super bien ses visiteurs.

Il avait, c 'est vrai, au moins 60% de Marocains comme visiteurs.

Je n'ai jamais su pourquoi.

C'est un site gratuit, ce n'est pas comme si j'en dépendais financièrement.

Peut-être y avait-il des problèmes de cache html, avec des pages vides.

J'avais mis une sorte de sémaphore pour les accès concurrents.

Merci de votre aide.
 
WRInaute accro
Le problème des stats, c'est que peu de contenu tue le contenu du coup. Bref, il va falloir songer à ajouter le pédigré des chevaux, la description de l'hippodrome ou je ne sais quel autre contenu. Ou alors, comme dit Spout, c'est une couille du côté de la gestion des cookies.
 
WRInaute accro
Bonjour cthierry

Je vais changer les sémaphores "fichiers", en sémaphores "sem_get(), sem_acquire(), etc... en faisant un mutex ( en php ), qui permettra de traiter les accès aux pages de manière séquentielle.

J'ai déjà une classe Mutex, piquée sur php.net.

Il semble, que sem_acquire() soit 150 fois plus rapide que ftok().

J'éliminerai entièrement les erreurs dues aux blocages de mon cache html. ( pages vides ).

J'avais l'intention depuis longtemps de faire çà.

J'ai mis un mail sur "Google Community".

Merci beaucoup de ton aide.
 
Olivier Duffez (admin)
Membre du personnel
question bête : ça sert à quoi de faire indexer les pages de stats passées ? (encore plus pour les futures)
 
WRInaute accro
Le problème des stats, c'est que peu de contenu tue le contenu du coup. Bref, il va falloir songer à ajouter le pédigré des chevaux, la description de l'hippodrome ou je ne sais quel autre contenu. Ou alors, comme dit Spout, c'est une couille du côté de la gestion des cookies.


Bonjour cthierry

Je n'ai plus de cookies de Google.

J'ai suivi le dernier cri de Sirdata : Utiliser les variables sirdataConsent, sirdataNoConsent
, sirdataVendors, sirdataPurposes, etc... en laissant le script Google d'origine, mais rien à faire çà marche pas.

J'ai remis le code Sirdata comme hier ( GTM aussi ), mais çà marche pas non plus.

Google me laisse tomber ?

Une pénalité signifie qu'il est impossible de continuer d'avoir les stats Analytics ?

Bizarre, bizarre...
 
WRInaute accro
Bonjour Monsieur Duffez

Je pourrais laisser peu de pages se faire indexer, avec noindex.

Mais quelle pages laisser pour l'indexation ?

Merci beaucoup beaucoup de votre aide.

Très respectueusement.
 
WRInaute accro
Mais quelle pages laisser pour l'indexation ?
Les pages non stats en clair ou celles des rapports des courses.
Une chose à ne pas oublier même si tu as plusieurs courses par jour, les courses, les résultats sont disponibles sur tellement d'autres sites donc GG est entrain de te dire : "Où est TON contenu ?"
 
WRInaute discret
Il y a au moins 2 mois, j'ai mis un système consent cookie (de
Quantcast) et quelques jours après le site disparait de tous ses mots clés (environ 100 pages avec plus de 5 bons mots clés par page, tout a sauté sur Google.
Ensuite je me dis que aller j’enlève ce truc Quantcast et même pas une semaine après tout revient sur Google.
Du coup je préfère mon bon vieux consent cookie classique en bas de l'écran sous forme de banderole.
J'ai vraiment pas envie de bosser sur ce genre de truc, c'est galère... C'est zéro.


Autre chose qui est hors sujet mais qui est utile de connaitre : depuis 2015 j'ai un concurrent il était trop bien placé sur Google (premier sur tous les mots clés) et il n'a jamais eu Google Adsense sur son site, et là depuis un mois et demi il a Google Adsense (il a été accepté vers fin mars/début avril) et 1 mois après plouf, il est en dessous de moi, j'ai trop l'impression que les pubs Google Adsense de son site l'a fait un tout petit peu coulé sur Google.
 
WRInaute accro
Bonjour Monsieur Duffez

Je vais faire un audit RM Tech pour détecter mes pages zombies.

Ceci après avoir arrangé mes sémaphores.

Super merci pour votre site.
 
WRInaute accro
Bonjour Monsieur Duffez

Je devrais enlever mes sitemaps ?

Ils donnent accès aux courses très anciennes.

Et mettre moins de 10 jours en arrière pour les courses passées ?

Respectueusement.
 
WRInaute accro
Les pages non stats en clair ou celles des rapports des courses.
Une chose à ne pas oublier même si tu as plusieurs courses par jour, les courses, les résultats sont disponibles sur tellement d'autres sites donc GG est entrain de te dire : "Où est TON contenu ?"


Bonjour passion

Mes pronos/stats après les courses sont les mêmes qu'avant les courses.

Les paris gagnés ( calculs automatiques ), indiquent au jour le jour le niveau prédictionnel de mon site.

Les résultats des courses confirment.

Alors...

Par contre, je pourrais enlever GTM et ma notation à étoiles, qui ralentissent beaucoup le site ( à cause de sirdata ).

Après, le problème de la mesure de fréquentation...

Amicalement.
 
Dernière édition:
WRInaute passionné
Simple, si aucun visiteur n'atterrit sur ces pages via Google, autant les désindexer, elles ne servent à rien.

(une chance que le site était gratuit et n'avait pas vocation à ne plus l'être o_O)
 
WRInaute accro
Bonjour Monsieur Duffez

J'ai certainement trop de pages zombies.

Je dois :

- Supprimer mon sitemap automatique,

- Diminuer la taille de ma bdd,

- Ne pas donner accès aux page trop anciennes ?

- Mettre un forum ?

Quant aux contenus, du point de vue d'un turfiste, les stats ont plus d'importance que les noms d'entraîneurs ?

D'autres contenus seraient de la copie de site, Google n'apprécierait pas non plus ?

Merci beaucoup de votre réponse.
 
Olivier Duffez (admin)
Membre du personnel
il faut définir quels genres de contenus méritent d'être indexés. Les autres doivent être supprimés (si les utilisateurs n'ont pas besoin de les consulter) ou désindexés (cas contraire).

un forum je doute que ce soit une bonne idée
 
WRInaute accro
Bonjour Monsieur Duffez

Je vais faire prochainement un audit RM Tech.

Mais je n'ai plus de cookie Analytics depuis quelques jours, et les mesures GA sont nulles.

Pourtant mon implémentation de GTM semble correcte ( depuis avant-hier ).

Une balise Analytics, déclenchement par PageWiew,

Champ de la balise : anonymizeIp = true.

L'ul "collect?v=1" est lancée, pas la "collect?v=2".

Je suppose que Google ne va pas jusqu'à couper GA ?

Je suis un particulier, d'après la CNIL mon site ne relève pas du GDPR.

Je n'ai pas rempli les pages de Google relatives au GDPR.

Merci beaucoup.
 
Olivier Duffez (admin)
Membre du personnel
désolé je ne sais pas pourquoi GA ne fonctionne pas
pour RM Tech, tu peux te baser uniquement sur les données GSC : tu sauras combien de clics a généré chacune des URL indexables. De quoi décider quoi faire avec.
 
WRInaute accro
Bonjour Monsieur Duffez

L'analyse RM Tech montre un problème de manque de contenu texte.

Le critère est-il un ratio texte/contenu total, ou autre ?

J'ai beaucoup trop de Javascript.

Je vais voir les urls à corriger.

Merci beaucoup pour votre site.

Respectueusement.
 
Olivier Duffez (admin)
Membre du personnel
le ratio texte/code on s'en fiche complètement (tout comme les visiteurs du site)
j'ai déjà expliqué, ainsi que d'autres, qu'il faut déterminer quelles pages méritent d'être indexées. Pour celles-là il faut qu'elles soient bien complètes (en termes de contenu éditorial). Pour les autres, j'ai déjà expliqué quoi faire.
 
WRInaute accro
Tu confonds beaucoup de choses.
- Supprimer mon sitemap automatique
Pourquoi ? Un sitemap est utile et même recommander. Maintenant ce que tu dois revoir, c'est les urls listées.
- Diminuer la taille de ma bdd
Pourquoi ? Si tu veux continuer à proposer des résultats des autres jours, tu peux créer une rubrique par ex "archives" en "noindex" et tu laisses en ligne pour tes utilisateurs.
- Ne pas donner accès aux page trop anciennes ?
Pourquoi ? Voir la réponse précédente
- Mettre un forum ?
Comme tu veux mais soit attentif à la qualité du forum. Indexe QUE ce qui est réellement jugé de qualité.
 
WRInaute accro
le ratio texte/code on s'en fiche complètement (tout comme les visiteurs du site)
j'ai déjà expliqué, ainsi que d'autres, qu'il faut déterminer quelles pages méritent d'être indexées. Pour celles-là il faut qu'elles soient bien complètes (en termes de contenu éditorial). Pour les autres, j'ai déjà expliqué quoi faire.


Bonjour Monsieur Duffez

J'ai 97% d'erreurs en contenu trop faible.

A côté de çà, j'ai des h1... h6 avec des contenus en doublons.

Sur l'histogramme multi-triangles, j'ai tout à plus de 90%, sauf contenu texte : 0%.

Surtout, pages zombies à corriger suivant les indications de l'audit.

Tout est ordonné, facile à interpréter, super.

Je vais me mettre à la correction de mon site.

Merci beaucoup.
 
Olivier Duffez (admin)
Membre du personnel
c'est pas ça la 1ère chose à faire, c'est appliquer les conseils donnés dans cette discussion (suppression/désindexation de pages)
 
WRInaute accro
Bonjour Monsieur Duffez

Pour supprimer : header 410 Gone,

Pour désindexer : header X-Robots-Tag "noindex, nofollow" ?

Faut-il faire le header 410 ?

Pour un grand nombres de pages anciennes.

Merci beaucoup.
 
WRInaute accro
Bonjour Monsieur Duffez

Bon à savoir : le "410 Gone" empêche le X-Robots-Tag de fonctionner.

Je n'ai plus que le X-Robots-Tag, seulement pour les pages antérieures de 8 semaines et 10 jours.

Ces pages seront désindexées théoriquement.

J'ai supprimé le sitemap.

En ce qui concerne GA, je vais mettre le gtag plutôt que GTM.

Merci beaucoup pour votre aide.
 
WRInaute accro
C'est super Monsieur Duffez

Les mesures GTM ont repris.

Hier, 1000 visites et 500 vu.

Finalement , je met noindex pour toutes pages plus anciennes que le 1er du 3ème mois avant today - 10 jours.

Je reverrai les annexes de l'audit prochainement.

Un monsieur sur Google Community, m'a dit que j'avais beaucoup trop de pages très anciennes, donc peu intéressantes pour les visiteurs. Il m'a recommandé de désindexer ou effacer ces pages.

Merci beaucoup pour votre aide.
 
WRInaute discret
"très anciennes, donc peu intéressantes"

Il n y a aucun lien ! Une page peut être ancienne et être intéressante si cette dernière est mise à jour selon les tendances du moment.
 
WRInaute accro
Voilà, voilà...

J'ai refait le sémaphore de mes pages de courses, qui gère les fichiers temporaires.

Une simple classe avec des flock($fp, LOCK_EX) bloquants.

J'espère qu'il n'y aura plus de pages cachées vides.

Je vais regarder de temps en temps avec : 'ls-S -l'.

Possible que ces pages vides n 'étaient pas bien vues de Google.

Je vais surveiller le trafic.

Merci beaucoup à Wri pour son aide.

Amicalement.
 
Dernière édition:
WRInaute accro
Pardon

Je n'avais pas lu la fin du message de Google.

Il semblerait que j'ai copié l'apparence graphique des rapports des paris ( pas du tout le code html ), de mon site partenaire.

Avec son autorisation.

Je n'ai plus qu'à refaire mon implémentation des rapports de paris.

Merci beaucoup à Google.

Une question : Pour s'inscrire sur Wri, est-il nécessaire que son adresse email ne soit pas du type : @gmail.com ?

Merci beaucoup.
 
WRInaute accro
Bonjour Monsieur Duffez

Voilà, j'ai interverti ligne et colonnes des rapports des paris , changé la couleur en les mettant en display:grid.

J'aurais encore à réduire beaucoup le style css, le nombre de couleurs est trop élevé.

J'ai supprimé ce soir les notations à étoiles, celà m'a fait passer au Page Speed Insight le Content Layout Shift, de 0,32 s à 0 s.

Le Lighthouse de Chrome m'attribue [99-100]% de Performances, 97% d'Accessibilité, et 100% le reste.

Mais je ne peux l'utiliser que quand la page est déjà dans le cache html.

J'ai mis les pages de + de 6 mois en nofollow, noindex ( liens de action_old_courses.php et pages de pronostics_new_old_ courses.php ).


Sur Google Community, j'ai reçu le conseil de désindexer toutes les pages anciennes temporairement avec :

https://search.coogle.com/search-console/removals

Dois-je suivre ce conseil ?

Quand pourrai-je faire ma demande de réexamen à Google ?

Merci beaucoup.
 
Olivier Duffez (admin)
Membre du personnel
je ne sais pas te répondre, je ne connais pas le site
je vois qu'en suivant les liens actuellement sur le site on trouve environ 600 pages, alors que Google semble en avoir indexé + de 30.000 !
le site est donc rempli de pages orphelines, que désormais tu souhaites vouloir désindexer. si elles avaient été dans un même répertoire, ça aurait été facile avec l'outil de suppression dans la search console, mais ça ne semble pas être le cas.

ces pages du passé sont-elles vraiment utiles à faire indexer ? je n'y connais rien mais je ne comprends pas pourquoi.

au passage, tu as des sous-domaines indexés qui n'auraient jamais dû l'être, comme analytics ou smtp, pop3, imap, postfixadmin !
 
WRInaute accro
Bonjour Monsieur Duffez

Sur le conseil du monsieur ( Bronze ) sur Google Community, j'ai désindexé toutes mes pages avec la Search Console.

Aussi, j'ai ramené le délai après lequel les urls sont no-index, à 66 jours.

Le sitemap aussi, ne contient plus ( comme pages anciennes ), que les 66 derniers jours.

Je m'étonne de quelques résultats de Ligthouse après mes améliorations techniques de mon site, impliquant sa rapidité :

Les indicateurs sont tous à 100%, une fenêtre noire a'affiche mentionnant la présence probable de quelque chose dans IndexedDB.

J'ai eu 800 vu hier.

Merci beaucoup.
 
Olivier Duffez (admin)
Membre du personnel
j'ai désindexé toutes mes pages avec la Search Console.
c'est du Gold à ce niveau !
je plaisante, mais en désindexant TOUT le site, c'est assez radical. Pourquoi pas, il faudra s'assurer que les pages que tu veux faire indexer se font re-indexer.

cela dit, j'ai testé avec la commande site: et je vois encore des milliers d'URL indexées. la demande de désindexation ne semble pas avoir été faite ou alors c'est récent

la vitesse et les mesures de lighthouse n'ont aucun rapport avec le pb que tu cherches à résoudre (à savoir la pénalité pour spam). Donc c'est un aspect mineur
 
WRInaute accro
Bonjour Monsieur Duffez

Le motif de pénalité invoqué par Google est : site spammé.

Avant la mise au point récente ( trois semaines environ ), de mon système de cache, il y avait parfois des pages vides à l'affichage.

Serait-il possible, ( fréquence 1/20ème 1/30ème au pif ), que ce soit la raison pour laquelle Google a classé mon site comme spammé ?

Le problème, je ne sais pas quelles pages sont en erreur.

Merci beaucoup pour votre aide.

Merci pour votre site.
 
WRInaute accro
Je demande pardon à Monsieur Duffez

Je n'avais pas vu mon audit RM-Tech.

Je vais regrouper des pages pour plus de contenu.

Actuellement mes mesures Google Insight sont à 1,6 sec, 0,20 ms et CLS 0 ms.

J'attends que les pages soient à "passent" au lieu de " ne passent pas".

Quant à mes pages sans suffisamment de contenu, c'était il me semble, signalé par Google avant la pénalité mais mon site n'avait pas changé depuis x temps.

Celà rentre dans le cadre du dossier de Wri à propos des surveillances de site.

Mon trafic est repassé avant-hier à 960 vu/jour.

Très respectueusement.
 
WRInaute accro
Bonjour

D'après GA hier, j'ai eu 1k vu et 0,97sec d 'accès moyen aux pages.

D'après GSC, j'ai eu hier plus de 1000 impressions, et un CTR en forte diminution( 17% ou 27% je ne sais plus ).

En général, est-il possible qu'une pénalité de Google soit levée, sans demande de réexamen ?

Je ne sais pas trop comment regrouper mes pages, comment gérer les accès à des courses directement, sans une page intermédiaire de liste de courses.

Merci beaucoup de vos réponses.
 
Discussions similaires
Haut