chronologie façon SF des mésaventures d'un blog wordpress

Nouveau WRInaute
Si parmi vous certains y comprennent quelque chose, ou auraient des débuts de rudiments d'explication, je leur serai totalement reconnaissante.
C'est un peu longuet, je vous demande par avance votre indulgence, mais ça relate 3 mois de sueurs froides.

il s'agit de [modéré OTP] , blog d'un studio de production français alimenté quotidiennement par quelques employés passionnés, et propulsé par le classique Wordpress.

fin mai: google cesse de proposer de nouvelles dates de mise en cache quand on fait la commande "site:", et indique perpetuellement "23 mai" durant les semaines qui suivent, alors qu'auparavant la date changeait quotidiennement.

(dans les fait, des tests indiquent au contraire qu'il prenait correctement en compte les nouvelles pages publiées depuis cette date, mais sans toutefois en faire état dans ses mises en cache.)

Pendant ce temps, google webmaster tools me dit que 872 pages sont indexées.
google me dit lui 616, 672 ou 600 selon les interrogations. Ceci dit on a tous l'habitude de cette variation entre google et WT, ce n'est donc pas forcément bizarre en soi.

26 aout : perdant tout espoir que la situation change naturellement, je fais une demande de réexamen à google, en leur disant que je ne comprends pas pourquoi le site ne semble plus mis en cache alors que du contenu frais est publié chaque jour, et que donc la home est modifiée très fréquemment. (elle a d'ailleurs la variable changefreq mise à "daily" dans le sitemap).

Je les invite aussi à m'indiquer les éventuelles infractions commises par le site (en sachant que je me suis employée depuis mon arrivée dans la société à nettoyer tous les trucs "louches" ou maladroits du site pouvant pourrir le ref nat, excepté le problème du nb de liens par page, dû entre autres à un nb ridiculement élevé de catégories. On prépare la nvelle version du site, en attendant on a laissé tel quel et j'ai demandé à mes collègues de ne surtout pas créer de nouvelles catégories... je sais que ça nuit à la qualité du ref nat mais je ne crois pas que ça soit un élément que google puisse "sanctionner".)

le 27 aout en journée, la home du blog est purement et simplement jartée de l'index google !
par contre de nombreuses autres pages obtiennent une date de mise en cache plus récente (genre 24/25/26 aout)

Par contre, certaines de ces pages contiennent aussi, d'après la version cache de google, des parties planquées dans des div à - 2500 px à gauche , avec des listes de liens dégueulasses , par dizaines, vers des sites de viagra et de medocs bizarres qui sont tous en .edu !
Des parties qu'on ne retrouve absolument pas quand on regarde la source de la page réelle.
Donc j'en conclus que c'est une action pas très sympa de piratage wordpress qui, non contente d'injecter du code, vient en plus le retirer une fois la page indexée par google. (!?!)

A noter que certaines autres pages n'ont, elles, plus de lien "en cache" , mais uniquement le lien "pages similaires".
D'autres ont bien ce lien "en cache", mais quand on clique dessus on tombe sur une erreur google (version en cache non disponible) !

et bien sur, je n'ai aucune nouvelle de google.

j'ai fait des recherches dans les forums d'utilisateurs wordpress, et je n'ai pas trouvé de cas semblable.

et, laissez-moi vous dire, je transpire :s ...

En gros mes questions sont :
- y a t'il un rapport de cause à effet entre ces piratages et les problèmes de mise en cache?
- comment expliquer la différence de traitement entre ces pages en cache, ces pages sans cache, et ces pages soi-disant en cache mais en fait quand on clique, nan?
- comment expliquer que la home d'un site se retrouve virée de l'index suite à ma demande de réexamen?
- comment expliquer que, pendant que cette home est virée, les autres pages retrouvent une date de mise en cache plus logique, mais bizarrement corrélée à la date de ma demande de rééxamen ?
- pour finir, quelqu'un en sait-il plus sur ce type de piratage?

Voilà !

Merci d'avance à ceux qui prendront déjà la peine de lire ce pavé, et plus encore à ceux qui apporteront quelques éléments de réponse.

edit : je poursuis mes recherches et je soupçonne un bout de code présent dans le header.php d'avoir un rapport avec tout ça .
Ca contient un "base64_decode" et puis tout un tas de choses cryptées, à l'intention de googlebot, slurp, mybot et msn.

Je pense essayer de le virer pour voir.
 
WRInaute accro
Wordpress comme toute les plateforme un tant soit peu "connues" sont exploitées et piratées régulièrement, ce qui est très probablement la cause de tout tes soucis.
Mon conseil, commence par upgrader ta version wordpress dès qu'une nouvelle release sort (enfin c'est pas à la minute, moi j'aime bien attendre qq semaines pour voir les autres essuyer les plâtres).
Renseigne toi sur la sécurisation de cette plateforme de blog, il y a plusieurs points plutot simple à appliquer qui t'éviteront bien des ennuis à l'avenir.
Bonne chance !
 
WRInaute discret
Si votre site est un site adulte (pornographie, érotisme mais aussi rencontres ou vente de produits pour adultes), raciste, portant atteinte aux droits des tiers ou ne correspondant pas à nos valeurs, nous vous demandons de ne pas mettre son URL dans votre profil, et de ne pas discuter de votre site dans les discussions... Tout ce qui concerne les contenus pour adultes ne doit donc pas être abordé sur WRI (il existe des forums spécialisés pour ça).
Bonjour, votre site est hors charte de ce forum... :oops:
 
WRInaute accro
J'ai supprimé le lien, il est hors forum.
On doit réfléchir avant de poster un lien à quelle audience est destiné le site sur lequel on le met.
 
Nouveau WRInaute
On est sincèrement désolé !
Sorry OTB, sorry tous les membres du site qui ont été choqués par la nature du blog.

On n'a pas réfléchi.
On ne le refera pas .

Et merci à ceux qui ont répondu :>
 
Nouveau WRInaute
Bonjour
J'ai eu le même problème sur un blog.
Il s'agit du header qui est régulièrement piraté: rajout de milliers de lignes de code renvoyant vers d'autres sites piratés (membre du parti républicain d'Alaska, Artiste Canadien etc...) sur lesquels il y a effectivement des pubs pour du Viagra.
Probablement dans le but de récupérer des numéros de CB, sans trace, puisqu'ils utilisent des sites innocents et sans rapport avec leur activité.
Je m'en suis aperçu quand GWT a commencé à trouver des mots-clé sur mon site qui n'avaient aucun rapport avec le site.
Un peu eu peur d'être sandboxé (liens cachés par milliers vers la même page...).
Si c'est le même problème que moi, il faut fouiller le header.php dans l'éditeur de thèmes, et virer les lignes de code pirates, ainsi que les balises <BEGIN NEWS> et <END NEWS>.
C'est à court terme, mais bon.
 
Discussions similaires
Haut