GoogleBot il est fou et il prévient pas

WRInaute accro
GoogleBot [4650]


ca ferait surement plaisir à certains de voir "autant" de visite en meme pas deux heures. Mais le problème c'est que je suis habitué à une moyenne de 100 visites quotidienne, alors la le serveur ne tient pas vraiment le coup... On peut rien y faire sans le bloquer?


regardez de par vous meme depuis hier c un peu folie:

http://www.jeunz.com/robotstats/index.p ... ens=&site=
 
WRInaute impliqué
J'ai un problème similaire....
Il détruit complètement la vitesse de mon site.
Malheuresement il n'existe pas de syntaxe robots.txt pour dire "un seul à la fois".
J'ai par contre vu ça pour les forums phpbb, je vais le rechercher si tu es intéressé.

EDIT : trouvé sur cet article : http://www.phpbb.com/kb/article.php?article_id=29
Code:
################################################################# 
## MOD Title: GoogleSingleSession (Add-On to enhance-google-indexing ) 
## MOD Author: - R. U. Serious 
## MOD Description: This MOD will give all 'guests' where the useragent 
##          contains 'Googlebot' one session (static session_id) 
##          Hence it will only appear as a single guest. 
## 
## MOD Version: 0.9 
## 
## Installation Level: (easy) 
## Installation Time: 5 Minutes 
## Files To Edit: includes/sessions.php  
############################################################## 

#-----[ OPEN ]------------------------------------------ 
# 
includes/sessions.php 

# 
#-----[ FIND ]------------------------------------------ 
# 
$session_id = md5(uniqid($user_ip)); 

# 
#-----[ REPLACE WITH ]------------------------------------------ 
# 
# Note: d8ef2eab is one of the googlecrawlbots ips 
# 
//$session_id = md5(uniqid($user_ip)); 
global $HTTP_SERVER_VARS; 
$session_id = ( !strstr($HTTP_SERVER_VARS['HTTP_USER_AGENT'] ,'Googlebot') ) ? md5(uniqid($user_ip)) : md5(d8ef2eab); 


# 
#-----[ FIND ]------------------------------------------ 
# 
   else 
   { 
      $sessiondata = ''; 
      $session_id = ( isset($HTTP_GET_VARS['sid']) ) ? $HTTP_GET_VARS['sid'] : ''; 
      $sessionmethod = SESSION_METHOD_GET; 
   } 


# 
#-----[ AFTER ADD ]------------------------------------------ 
# 
   global $HTTP_SERVER_VARS; 
   if ( empty($session_id)  && strstr($HTTP_SERVER_VARS['HTTP_USER_AGENT'] ,'Googlebot') ) 
   { 
      $sessiondata = ''; 
      $session_id = md5(d8ef2eab); 
      $sessionmethod = SESSION_METHOD_GET; 
   } 


# 
#-----[ FIND ]------------------------------------------ 
# 

         if ( $ip_check_s == $ip_check_u ) 

# 
#-----[ REPLACE WITH ]------------------------------------------ 
# 

   //      if ( $ip_check_s == $ip_check_u ) 
         if (( $ip_check_s == $ip_check_u ) || ($session_id == md5(d8ef2eab)&&(strstr($HTTP_SERVER_VARS['HTTP_USER_AGENT'] ,'Googlebot')))) 

# 
#-----[ SAVE/CLOSE ALL FILES ]------------------------------------------ 
# 
# EoM
 
WRInaute impliqué
A ma connaissance le temps de chargement des pages ne dérange pas le googlebot tant qu'il ne dépasse pas le temps maximal (500 secondes je crois, mais je n'en suis pas sûr).
 
WRInaute accro
A mon avis il c'est rendu compte qu'il foutait la merde. A 13h45 il c arreté de crawler. Après avoir fait 4655 visites en moins de deux heures.


Je sais pas si il c arreté à cause de moi, j'ai du relancer sql et httpd tellement il faisait planter, ou si il avait finit son boulot.
 
WRInaute impliqué
A un moment Blogger avait un robots.txt disallow googlebot intermittent (toutes les 2 ou 3 secondes ça changeait) peut-être pour soulager la BP...
 
WRInaute passionné
Il semblerai que bcp de sites ont eu ce gros full crawl, je le vois sur pas mal de forum, et il y a eu un sujet sur WRI disant la mme chose ... il a décidé de distancer le nb de pages indexés par rapport à yahoo peut-etre
 
WRInaute accro
Oui mais bon, ça fait pas sérieux d'être aussi sauvage, il se rend pas compte que certains serveurs lachent pendant son passage? :(

J'ai plus qu'a racheté de la RAM etc pour que monsieur distance yahoo ^^
 
WRInaute discret
:p il passe enfin pour moi aussi... ( nouveau site et pas de PR :wink: )

C'est vrai que ça atteint directement les temps de réponse.
Pas de plantage pour moi mais enfin, si tous les moins il augmente le nombre de pages vues, ça va finir par lacher :?
 
Discussions similaires
Haut