chronologie façon SF des mésaventures d'un blog wordpress

Discussion dans 'Crawl et indexation Google, sitemaps' créé par arcueid_b, 31 Août 2009.

  1. arcueid_b
    arcueid_b Nouveau WRInaute
    Inscrit:
    29 Août 2006
    Messages:
    4
    J'aime reçus:
    0
    Si parmi vous certains y comprennent quelque chose, ou auraient des débuts de rudiments d'explication, je leur serai totalement reconnaissante.
    C'est un peu longuet, je vous demande par avance votre indulgence, mais ça relate 3 mois de sueurs froides.

    il s'agit de [modéré OTP] , blog d'un studio de production français alimenté quotidiennement par quelques employés passionnés, et propulsé par le classique Wordpress.

    fin mai: google cesse de proposer de nouvelles dates de mise en cache quand on fait la commande "site:", et indique perpetuellement "23 mai" durant les semaines qui suivent, alors qu'auparavant la date changeait quotidiennement.

    (dans les fait, des tests indiquent au contraire qu'il prenait correctement en compte les nouvelles pages publiées depuis cette date, mais sans toutefois en faire état dans ses mises en cache.)

    Pendant ce temps, google webmaster tools me dit que 872 pages sont indexées.
    google me dit lui 616, 672 ou 600 selon les interrogations. Ceci dit on a tous l'habitude de cette variation entre google et WT, ce n'est donc pas forcément bizarre en soi.

    26 aout : perdant tout espoir que la situation change naturellement, je fais une demande de réexamen à google, en leur disant que je ne comprends pas pourquoi le site ne semble plus mis en cache alors que du contenu frais est publié chaque jour, et que donc la home est modifiée très fréquemment. (elle a d'ailleurs la variable changefreq mise à "daily" dans le sitemap).

    Je les invite aussi à m'indiquer les éventuelles infractions commises par le site (en sachant que je me suis employée depuis mon arrivée dans la société à nettoyer tous les trucs "louches" ou maladroits du site pouvant pourrir le ref nat, excepté le problème du nb de liens par page, dû entre autres à un nb ridiculement élevé de catégories. On prépare la nvelle version du site, en attendant on a laissé tel quel et j'ai demandé à mes collègues de ne surtout pas créer de nouvelles catégories... je sais que ça nuit à la qualité du ref nat mais je ne crois pas que ça soit un élément que google puisse "sanctionner".)

    le 27 aout en journée, la home du blog est purement et simplement jartée de l'index google !
    par contre de nombreuses autres pages obtiennent une date de mise en cache plus récente (genre 24/25/26 aout)

    Par contre, certaines de ces pages contiennent aussi, d'après la version cache de google, des parties planquées dans des div à - 2500 px à gauche , avec des listes de liens dégueulasses , par dizaines, vers des sites de viagra et de medocs bizarres qui sont tous en .edu !
    Des parties qu'on ne retrouve absolument pas quand on regarde la source de la page réelle.
    Donc j'en conclus que c'est une action pas très sympa de piratage wordpress qui, non contente d'injecter du code, vient en plus le retirer une fois la page indexée par google. (!?!)

    A noter que certaines autres pages n'ont, elles, plus de lien "en cache" , mais uniquement le lien "pages similaires".
    D'autres ont bien ce lien "en cache", mais quand on clique dessus on tombe sur une erreur google (version en cache non disponible) !

    et bien sur, je n'ai aucune nouvelle de google.

    j'ai fait des recherches dans les forums d'utilisateurs wordpress, et je n'ai pas trouvé de cas semblable.

    et, laissez-moi vous dire, je transpire :s ...

    En gros mes questions sont :
    - y a t'il un rapport de cause à effet entre ces piratages et les problèmes de mise en cache?
    - comment expliquer la différence de traitement entre ces pages en cache, ces pages sans cache, et ces pages soi-disant en cache mais en fait quand on clique, nan?
    - comment expliquer que la home d'un site se retrouve virée de l'index suite à ma demande de réexamen?
    - comment expliquer que, pendant que cette home est virée, les autres pages retrouvent une date de mise en cache plus logique, mais bizarrement corrélée à la date de ma demande de rééxamen ?
    - pour finir, quelqu'un en sait-il plus sur ce type de piratage?

    Voilà !

    Merci d'avance à ceux qui prendront déjà la peine de lire ce pavé, et plus encore à ceux qui apporteront quelques éléments de réponse.

    edit : je poursuis mes recherches et je soupçonne un bout de code présent dans le header.php d'avoir un rapport avec tout ça .
    Ca contient un "base64_decode" et puis tout un tas de choses cryptées, à l'intention de googlebot, slurp, mybot et msn.

    Je pense essayer de le virer pour voir.
     
  2. bproductiv
    bproductiv WRInaute accro
    Inscrit:
    27 Décembre 2004
    Messages:
    3 677
    J'aime reçus:
    0
    Wordpress comme toute les plateforme un tant soit peu "connues" sont exploitées et piratées régulièrement, ce qui est très probablement la cause de tout tes soucis.
    Mon conseil, commence par upgrader ta version wordpress dès qu'une nouvelle release sort (enfin c'est pas à la minute, moi j'aime bien attendre qq semaines pour voir les autres essuyer les plâtres).
    Renseigne toi sur la sécurisation de cette plateforme de blog, il y a plusieurs points plutot simple à appliquer qui t'éviteront bien des ennuis à l'avenir.
    Bonne chance !
     
  3. viewinn
    viewinn WRInaute discret
    Inscrit:
    3 Mai 2009
    Messages:
    74
    J'aime reçus:
    0
    Bonjour, votre site est hors charte de ce forum... :oops:
     
  4. OTP
    OTP WRInaute accro
    Inscrit:
    16 Décembre 2005
    Messages:
    14 582
    J'aime reçus:
    3
    J'ai supprimé le lien, il est hors forum.
    On doit réfléchir avant de poster un lien à quelle audience est destiné le site sur lequel on le met.
     
  5. arcueid_b
    arcueid_b Nouveau WRInaute
    Inscrit:
    29 Août 2006
    Messages:
    4
    J'aime reçus:
    0
    On est sincèrement désolé !
    Sorry OTB, sorry tous les membres du site qui ont été choqués par la nature du blog.

    On n'a pas réfléchi.
    On ne le refera pas .

    Et merci à ceux qui ont répondu :>
     
  6. russelpea
    russelpea Nouveau WRInaute
    Inscrit:
    20 Juillet 2009
    Messages:
    19
    J'aime reçus:
    0
    Bonjour
    J'ai eu le même problème sur un blog.
    Il s'agit du header qui est régulièrement piraté: rajout de milliers de lignes de code renvoyant vers d'autres sites piratés (membre du parti républicain d'Alaska, Artiste Canadien etc...) sur lesquels il y a effectivement des pubs pour du Viagra.
    Probablement dans le but de récupérer des numéros de CB, sans trace, puisqu'ils utilisent des sites innocents et sans rapport avec leur activité.
    Je m'en suis aperçu quand GWT a commencé à trouver des mots-clé sur mon site qui n'avaient aucun rapport avec le site.
    Un peu eu peur d'être sandboxé (liens cachés par milliers vers la même page...).
    Si c'est le même problème que moi, il faut fouiller le header.php dans l'éditeur de thèmes, et virer les lignes de code pirates, ainsi que les balises <BEGIN NEWS> et <END NEWS>.
    C'est à court terme, mais bon.
     
Chargement...
Similar Threads - chronologie façon mésaventures Forum Date
Outil de reconnaissance chronologie de contenue, ça existe ? Débuter en référencement 17 Juin 2011
Yahoo [Infographie] L'historique de Yahoo - Chronologie Le café de WebRankInfo 15 Novembre 2010
[Etude] Chronologie de l'IPO de Google Google : l'entreprise, les sites web, les services 4 Février 2005
Referencement d'un nouveau site: chronologie Problèmes de référencement spécifiques à vos sites 29 Janvier 2005
Chronologie de l'introduction en Bourse de Google Google : l'entreprise, les sites web, les services 17 Janvier 2005
La balise "title" n' apparait pas de la même façon que dans le code source. Débuter en référencement 1 Juin 2021
outil qui permettrait de repérer et de mettre un commentaire de façon automatique sur les sites/blog Netlinking, backlinks, liens et redirections 3 Février 2020
Meilleure façon de faire une sauvegarde site web Administration d'un site Web 3 Mai 2019
diaporama (jquery) façon facebook Développement d'un site Web ou d'une appli mobile 2 Août 2018
SEO : Google modifie sa façon de géolocaliser les résultats Référencement international (langues, pays) 30 Octobre 2017
Meilleure façon de référencer une entreprise au niveau national Référencement Google 26 Octobre 2017
demande d'ais sur la façon dont vous percevez mon site Demandes d'avis et de conseils sur vos sites 15 Mai 2016
La meilleure façon de profiter au moins 10 eur du adsense ? Référencement Google 25 Février 2014
Comment indexer mon site de cette façon: Débuter en référencement 18 Février 2014
chatroulette et contrefaçon de certains sites (marque déposée !) Droit du web (juridique, fiscalité...) 11 Juin 2013
Traduction d'un site, est-ce que ma façon de faire pose problème? Développement d'un site Web ou d'une appli mobile 10 Juin 2013
Déployer un site de façon anonyme sur les réseaux sociaux. Le café de WebRankInfo 3 Janvier 2013
Contrefaçon sur Adwords Droit du web (juridique, fiscalité...) 24 Septembre 2012
De quelle façon utilisez-vous tweetadder ? Twitter 6 Juin 2012
► Une façon bien originale de se distinguer... ส็็็็็็็็ Référencement Google 5 Mai 2012