GoogleBot : "Attaque" en rêgle

Discussion dans 'Crawl et indexation Google, sitemaps' créé par TieryCB, 16 Février 2013.

  1. TieryCB
    TieryCB Nouveau WRInaute
    Inscrit:
    16 Février 2013
    Messages:
    1
    J'aime reçus:
    0
    Bonjour à tous,

    La fréquence de passage des googlebots est une 1ere question intéréssante. La deuxieme est la manière dont ils se comportent sur votre site. J'attends par là fréquence des requêtes envoyées pour analyser les pages. J'ai dernièrement développé un code (stockage en fichier pas d'accès mysql) de suivi de toutes les connexions IP entrante sur mon site pour mesurer le nb de requête par secondes de chaque adresse. (mon serveur mysql ayant du mal à supposer le trafic). Je suis les resultats depuis plusieurs semaine et je dois dire que j'ai été plutôt surpris des résultats.

    De nombreuses IP arrivent avec plus de 20 cnx / 3s ... Avec bcp supérieur à 100, 200 voir 300.
    Soite !

    Je vois aussi les googlebots arriver, plutot délicat en terme de connexions 1 à 2 par 3s et 4 à 10 par 20s au début. Ce qui est ce à quoi on peut s'attendre dans les webmaster tools en terme de réglage. Sauf qu'en fait de temps en temps ils arrivent avec les salves de 300, voir aujourd'hui 3859 en 20s !! Pour info j'ai modifier cette fréquence il y a deux jours pour augmenter le nb de cnx par seconde sans mettre à fond, paramétrage de la Vitesse d'exploration dans les WMT :
    4 demandes par seconde
    0,3 secondes entre les demandes


    Est-ce que quelqu'un à déjà constaté ce genre de comportement ?
    Je bloque ces innondations de connexions, en envoyant un header 503 quand ca dépasse certaine valeur, cela aurait-il un impacte sur le ref ?
    Et d'ailleurs quelle devrait être la limitation à mettre en place en nb de requete par secondes pour 3s et 20s ?

    PS1 : Je n'emploi pas de cache car mon site à un contenu de pages mis à jour en temps réel pour le suivi des d'actus.
    PS2 : Je suis certain du bon fonctionnement de mon code de suivi des cnx IP

    La ligne posant question :
    ** crawl-66-249-73-77.googlebot.com** 66.249.73.77
    1 cnx sur 3s time: Sat Feb 16 15:47:51 2013
    3859 cnx sur 20s time: Sat Feb 16 15:47:51 2013


    Le temps que j'écrive ce post voici la nouvelle ligne :
    ** crawl-66-249-73-77.googlebot.com** 66.249.73.77
    4 cnx sur 3s time: Sat Feb 16 16:17:42 2013
    4647 cnx sur 20s time: Sat Feb 16 16:17:45 2013


    Mise à jour 30mn après le post :
    ** crawl-66-249-73-77.googlebot.com** 66.249.73.77
    2 cnx sur 3s time: Sat Feb 16 16:56:15 2013
    5708 cnx sur 20s time: Sat Feb 16 16:56:18 2013

    Sachant que je limite pour les google bot à 200 requête par 20s, donc 20s plus tard il peut renvoyer 200 ... bon là 4647 !

    Ci dessous les résultats (ne s'affiche ici que les IP dépassant un certain quota de cnx):

    Code:
    BLOCKED
    
    ** 130.117.119.210** 130.117.119.210
    15 cnx sur 3s time: Sat Feb 16 15:40:46 2013
    15 cnx sur 20s time: Sat Feb 16 15:40:43 2013
    15 cnx sur 120s time: Sat Feb 16 15:40:43 2013
    
    ** nv5.netvibes.com** 193.189.143.27
    5 cnx sur 3s time: Sat Feb 16 15:33:43 2013
    15 cnx sur 20s time: Sat Feb 16 15:33:33 2013
    15 cnx sur 120s time: Sat Feb 16 15:33:33 2013
    
    ** evo-hl21-1.gameservers.net** 62.212.73.211
    2 cnx sur 3s time: Sat Feb 16 14:10:26 2013
    4 cnx sur 20s time: Sat Feb 16 14:10:21 2013
    171 cnx sur 120s time: Sat Feb 16 14:10:29 2013
    
    ** 130.117.119.242** 130.117.119.242
    20 cnx sur 3s time: Sat Feb 16 15:07:42 2013
    20 cnx sur 20s time: Sat Feb 16 15:07:39 2013
    20 cnx sur 120s time: Sat Feb 16 15:07:39 2013
    
    ** 130.117.119.243** 130.117.119.243
    20 cnx sur 3s time: Sat Feb 16 15:40:56 2013
    20 cnx sur 20s time: Sat Feb 16 15:40:52 2013
    20 cnx sur 120s time: Sat Feb 16 15:40:52 2013
    
    
    AUTHORIZED
    
    ** crawl-66-249-75-102.googlebot.com** 66.249.75.102
    1 cnx sur 3s time: Sat Feb 16 13:44:29 2013
    1 cnx sur 20s time: Sat Feb 16 13:44:29 2013
    
    ** 66.249.81.135** 66.249.81.135
    2 cnx sur 3s time: Sat Feb 16 15:25:13 2013
    2 cnx sur 20s time: Sat Feb 16 15:25:13 2013
    
    ** injr-spdrproxy2.bloomberg.com** 69.191.249.202
    1 cnx sur 3s time: Sat Feb 16 15:45:00 2013
    1 cnx sur 20s time: Sat Feb 16 15:45:00 2013
    
    ** crawl-66-249-73-77.googlebot.com** 66.249.73.77
    1 cnx sur 3s time: Sat Feb 16 15:47:51 2013
    3859 cnx sur 20s time: Sat Feb 16 15:47:51 2013
    
    ** injr-spdrproxy1.bloomberg.com** 69.191.249.201
    5 cnx sur 3s time: Sat Feb 16 15:47:02 2013
    5 cnx sur 20s time: Sat Feb 16 15:47:02 2013
    
    ** crawl-66-249-76-102.googlebot.com** 66.249.76.102
    1 cnx sur 3s time: Sat Feb 16 15:42:08 2013
    1 cnx sur 20s time: Sat Feb 16 15:42:08 2013
    
    ** crawl-66-249-75-91.googlebot.com** 66.249.75.91
    1 cnx sur 3s time: Sat Feb 16 14:58:03 2013
    1 cnx sur 20s time: Sat Feb 16 14:58:03 2013
     
  2. soinvisage
    soinvisage WRInaute passionné
    Inscrit:
    13 Septembre 2012
    Messages:
    1 147
    J'aime reçus:
    0
    bonjour,

    très mauvaise idée je pense de faire cela, rien de tel que les moteurs de recherche qui crawlent le site, peu importe le nombre, la fréquence !
     
  3. JPBPDS
    JPBPDS WRInaute discret
    Inscrit:
    28 Novembre 2012
    Messages:
    50
    J'aime reçus:
    0
    Je confirme, le mieux est de faire un blocage des autres bots autre que les moteurs de recherche.

    mais pour Google etc ....non, change de serveur afin de pouvoir supporter ces charges
     
  4. JanoLapin
    JanoLapin WRInaute accro
    Inscrit:
    21 Septembre 2008
    Messages:
    4 250
    J'aime reçus:
    0
    Il faut d'abord attendre un peu voir si c'est permanent ou non. Et il me semble que via GWT il existe la possibilité de régler la fréquence de crawl, non ?
    Sinon, tu peux mettre en place un filtrage (et non une exclusion) via htaccess.
     
  5. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 414
    J'aime reçus:
    0
    uniquement pour les serveurs dédiés
     
  6. HawkEye
    HawkEye WRInaute accro
    Inscrit:
    23 Février 2004
    Messages:
    13 932
    J'aime reçus:
    4
    Re: GoogleBot : "Attaque" en rêgle ...

    Ce sont des appels de pages ou des hits ?
    Ça me parait énorme, 4k pages en 20 secondes...
     
Chargement...
Similar Threads - GoogleBot Attaque rêgle Forum Date
66.249 googlebot attaque? Référencement Google 12 Mai 2011
Comment augmenter la fréquence de passage de GoogleBot Crawl et indexation Google, sitemaps 10 Décembre 2019
Site inaccessible pour GoogleBot Crawl et indexation Google, sitemaps 21 Octobre 2019
En décembre 2019 changement de l'user agent de Googlebot Crawl et indexation Google, sitemaps 5 Octobre 2019
googlebot crawle des pages inexistantes Crawl et indexation Google, sitemaps 16 Août 2019
Les pages 404 avec googlebot Crawl et indexation Google, sitemaps 14 Juin 2019
Evergreen Googlebot, basé sur Chromium (Chrome open source) Référencement Google 9 Mai 2019
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
GoogleBot scan url inexistante Crawl et indexation Google, sitemaps 17 Avril 2019
feuilles de styles non obtenues par Googlebot Crawl et indexation Google, sitemaps 28 Septembre 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice