Google spam ???

Nouveau WRInaute
Bonjour,

J'ai constaté depuis début novembre un comportement assez bizarre de Googlebot sur mon site. Il visite environ 1000 fois par jour ma page d'accueil et les autres pages du site ne sont visitées qu'une fois par jour. Pourquoi ce soudain intérêt démesuré pour ma page d'accueil alors que jusqu'ici elle était visitée comme les autres, ni plus, ni moins ?
D'autant que ce soudain regain d’intérêt de Googlebot double quasiment le trafic de mon site. En simplifiant, j'ai autant de visites de robots que d'humains !!!
Est-ce normal à votre avis ?
De mon côté je me demande si le problème ne vient pas d'une redirection (vers la page d'accueil) que j'effectue sur une page de téléchargement. Mais d'un autre côté, cette redirection existait déjà depuis plusieurs mois sans affoler Googlebot !??

Ce comportement de Googlebot est à la limite du spam (une requête toutes les 2 minutes 24h/24 sur ma page d'accueil !!!)
Quelqu'un peut me renseigner ? Ce problème est-il connu ?

Merci
 
Nouveau WRInaute
soldiez a dit:
qu'utilises tu comme outil d'analyse de trafic ?

J'utilise un logiciel maison, comme à l'ancienne !
Je pense que le problème ne vient pas du logiciel d'analyse car depuis plusieurs mois les stats étaient cohérentes. Mais là depuis le début du mois, je n'ai pas davantage de visiteurs humains, seulement ce Googlebot qui alourdit mes fichiers log et qui accessoirement bouffe de la bande passante !
 
Nouveau WRInaute
Merci de ta réponse mais mon problème ne se situe pas au niveau de l'outil d'analyse mais plutôt la nouvelle façon qu'a Google de crawler les pages depuis peu.

Quelqu'un a-t-il constaté le même problème que moi ?
 
WRInaute accro
es-tu sur que ça viennent bien de gg (en vérifiant les ip et le UA), car ça peut provenir soit d'ip différente (dans ce cas tu as un aspirateur qui usurpe le UA de gg), soit des ip de gg mais ce sont les serveurs des google app (ouverts au public pour héberger ses applis) sur lesquels plein de proxy se sont installés et se positionnent dans les serp avec le contenu des sites aspirés
 
Nouveau WRInaute
Oui Leonick, il s'agit bien des vrais Googlebots. Voici les IP du jour à 22 h :

66.249.66.121 : 1110 visites
66.249.66.124 : 1 visite
66.249.68.199 : 1 visite
66.249.71.212 : 1 visite
66.249.71.72 : 134 visites
66.249.72.247 : 270 visites

Par contre j'ai pas très bien compris ça :
ce sont les serveurs des google app (ouverts au public pour héberger ses applis) sur lesquels plein de proxy se sont installés et se positionnent dans les serp avec le contenu des sites aspirés
Et ce que je trouve bizarre c'est que le HTTP_REFERER de ces IP est toujours vide. S'il s'agit d'une sorte de "proxy google", on devrait quand même avoir un HTTP_REFERER, non ? En fait je sais pas trop...

Heeeeeeeelp ! Comment arrêter ce truc ? :D
 
Nouveau WRInaute
Leonick a dit:
Biloubou a dit:
Et ce que je trouve bizarre c'est que le HTTP_REFERER de ces IP est toujours vide
c'est le cas pour la quasi totalité des bots

Oui les bots n'indiquent pas de HTTP_REFERER, je disais ça à propos des serveurs google app. Si ceux-ci hébergent des proxy on devrait avoir l'URL du proxy en HTTP_REFERER si je ne m'abuse ?

nervusdm a dit:
Ben ban les.
;o)))
Sinon ca se règle pas ça dans le google webmaster tool ?

Oui, j'y ai pensé ... mais comment continuer à être référencé par Google si je "black-list" ses robots :?:
Pour webmaster tool, je viens de regarder, et d'après ce que j'ai vu, tu peux juste ajouter des URL ou des UA dans le robots.txt

En plus, je ne gagne rien sur le positionnement de mes pages, moi je veux juste que Googlebot crawle mon site ... comme avant :cry:

Le seul truc que je vois c'est d'interdire à ce GoogleBot l'accès à ma page d'accueil au delà de la 1ère visite à l'aide d'un script PHP dans son header. Mais est-ce la bonne solution ? GoogleBot ne risque t-il pas d'interpréter ça comme un refus d'indexation de tout le site compte tenu qu'il s'agit ici de la page d'accueil ?
 
WRInaute accro
Biloubou a dit:
Oui les bots n'indiquent pas de HTTP_REFERER, je disais ça à propos des serveurs google app. Si ceux-ci hébergent des proxy on devrait avoir l'URL du proxy en HTTP_REFERER si je ne m'abuse ?
déjà pas tous les proxy et, encore plus, quand ça correspond à des serveurs qui font du scrapping :twisted:
 
Nouveau WRInaute
J'ai fini par poser mon problème directement chez Google, j'attends leur réponse.

wait and see

Leonick, il s'agit bien des bots de Google, les IP le démontrent formellement. Et effectivement leur User Agent :
Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
 
Nouveau WRInaute
Google Webmaster Tool vient confirmer mon constat :mrgreen:

Googlebot.gif
 
Nouveau WRInaute
soldiez a dit:
tu les intéresses, c'est déjà bon signe comparativement à septembre ;)
J'en suis flatté mais le contenu de mon site n'a pas changé depuis mai dernier. Donc apparemment le seul facteur qui explique cette frénésie Googlebotesque c'est le nouvel algo de GG. Mais malheureusement ça ne me rapporte rien au niveau trafic à part alourdir très substantiellement mes LOG : aujourd'hui par exemple (à midi), j'ai 300 visites d'humains et 800 de robots ... dont 736 Googlebot sur ma page d'accueil :roll:
 
Nouveau WRInaute
Je viens d'avoir la réponse d'un employé de Google et d'après lui, il s'agit de mauvaises redirections sur mon site car il affirme que Googlebot ne s'acharne pas sur ma page d'accueil mais sur des pages qui redirigent vers celle-ci.

Pourtant lesdites pages n'existent plus depuis avril 2011 et dans mon htaccess, j'avais justement mis des redirections vers la page d'accueil pour éviter les erreurs 404. Est-ce à dire que Google n'a pas tenu compte du fait que ces pages n'existaient plus ?

De plus ces redirections ne semblaient pas le déranger jusqu'à début novembre. Ce qui a changé, ce n'est pas mon site mais plutôt la façon qu'à Google de le crawler. Le seul truc à ma charge, c'est qu'il y avait une erreur dans mon htaccess qui passait inaperçue jusqu'à début novembre. Il semblerait que Googlebot soit plus pointilleux dorénavant.

Je dois recontacter le gars de Google dans quelques jours, le temps de voir si leur robot se calme entre temps.
 
Nouveau WRInaute
Pour décrire l'erreur, je dois donner l'historique des modifs du htaccess
-----------------------------------------------------------------------------------
1- Le site en question (qui avait déjà 7 ans d'existence sur le web) est un site que j'ai repris et où toutes les pages se situaient dans un dossier nommé "ouvrir" et étaient elles mêmes nommées page01.htm, page02.htm, etc... jusqu'à page80.htm. J'ai donc renommé toutes les pages avec des noms comportant des mots clé et dans mon htaccess, j'ai mis :
Code:
RedirectPermanent /ouvrir/page01.htm /astronomie/formation-du-soleil.htm
RedirectPermanent /ouvrir/page02.htm /astronomie/le-relief-sur-mars.htm
etc...
etc...
RedirectPermanent /ouvrir/page80.htm /astronomie/jupiter-et-ses-semblables.htm
Jusque là pas de problème.

2- Un an plus tard -> migration sur serveur Linux pour pouvoir utiliser PHP :
Renommage de toutes les pages htm en php. Là j'ai modifié le htaccess comme suit :
Code:
RedirectPermanent /ouvrir/page01.htm /astronomie/formation-du-soleil.php
RedirectPermanent /ouvrir/page02.htm /astronomie/le-relief-sur-mars.php
etc...
etc...
RedirectPermanent /ouvrir/page80.htm /astronomie/jupiter-et-ses-semblables.php
RewriteEngine on
RewriteRule ^(.*)\.htm$ /$1.php [R=301,L]
RewriteRule ^(/ouvrir) /index.php
La dernière ligne, je l'ai mise car d'après les fichiers log, j'avais beaucoup d’erreurs 404 sur le dossier "/ouvrir" malgré qu'il n'existait plus. Donc je me suis dit, dès qu'un visiteur demande ce dossier je le redirige vers la page d'accueil et le problème est résolu. Tout fonctionnait bien jusqu'à ce mois de novembre où Googlebot s'est acharné à vouloir coûte que coûte crawler ce dossier qui par ailleurs avait disparu depuis des mois déjà. Googlebot était donc systématiquement redirigé vers la page d'accueil, d'où cette augmentation du trafic.

Je ne sais pas encore pourquoi Googlebot s'est acharné à vouloir crawler un dossier qui n'existe plus depuis belle lurette, j'imagine que c'est peut-être un problème de cache ?

Toujours est-il que j'ai viré cette dernière ligne en attendant de voir comment le robot de Google va se comporter.

Je vous tiens au courant

A bientôt.
 
WRInaute accro
Biloubou a dit:
Je ne sais pas encore pourquoi Googlebot s'est acharné à vouloir crawler un dossier qui n'existe plus depuis belle lurette, j'imagine que c'est peut-être un problème de cache ?
avec panda, de nombreux sites de spamindex se sont retrouvés en 1° page des serp, il est donc possible que ces sites fraichement réindexés par gg continuent à avoir tes liens d'où le crawl de gg. Comme ces sites ont du être reconsidérés comme spam par gg, possible que leurs liens n'apparaissent pas dans ton GWT mais gg continue à avoir ces liens dans ses serp. Si tes visiteurs normaux viennent sur ton site avec chrome ou bien que tu as GA sur ton site, gg continuera à voir ces liens et les crawlera
 
Nouveau WRInaute
Bonjour,

Voilà, j'ai résolu mon problème et comme il m'a été demandé de publier ici la solution pour qu'elle puisse servir à d'autres, la voici :

J'avais donc un dossier nommé "ouvrir" qui contenait des pages qui ont été renommés et dispatchées dans divers dossiers. Certaines d'entre elles étaient obsolètes, elles ont été supprimées ainsi que le dossier "ouvrir" lui-même.

Pour gérer tout ça j'ai mis en place des redirections dans le .htaccess pour toutes les pages qui devaient rester sur le site.
Et pour celles qui n'existaient plus, vu qu'elles se trouvaient dans ce fameux dossier "ouvrir", j'ai ajouté la redirection
Code:
RewriteRule ^(/ouvrir) /index.php
afin d'éviter les erreurs 404.

C'est cette dernière ligne qui a affolé Googlebot : Ne recevant pas d'erreurs 404, il a considéré que ces pages existaient toujours, donc il a continué à les crawler. Résultat : montée en flèche du trafic Googlebot sur ma page d'accueil à cause de la redirection.

J'insiste ici pour dire que c'est le nouvel algo de Googlebot qui a révélé cette erreur car jusqu'à fin octobre, elle passait inaperçue. Mes modifs du .htacces on été faite au mois de mai dernier et jusqu'à début novembre il ne les crawlait pas.

Pour info, mon .htaccess ressemblait à ça :
Code:
RedirectPermanent /ouvrir/page01.htm /astronomie/formation-du-soleil.php
RedirectPermanent /ouvrir/page02.htm /astronomie/le-relief-sur-mars.php
etc...
etc...
RedirectPermanent /ouvrir/page80.htm /astronomie/jupiter-et-ses-semblables.php
RewriteEngine on
RewriteRule ^(.*)\.htm$ /$1.php [R=301,L]
RewriteRule ^(/ouvrir) /index.php

J'ai donc supprimé cette dernière ligne et tout est rentré dans l'ordre. La preuve en images :
Avant :
Googlebot.gif

Après :
Googlebot2.gif
 
Discussions similaires
Haut