Envahi par bingbot!

Nouveau WRInaute
Bonjour à tous, je fais appel à vous afin de m'aider à résoudre un problème important.
Début mai mon hébergeur, très sérieux infomaniak à du mettre mon site en quarantaine, car ce dernier consommait 100% du cpu serveur.

Après diverses analyse, mise à jour, ajout de plugin super cache pour wordpress dans mes 4 installations WP, le problème n'était pas résolu. Une chose me paraissait anormal, en 15 jours une page unique de mon serveur à été visitée 660000 fois, sans raison apparente. Cette dernière n'a pas de grande différence avec les autres et son code semble sain. Dans les logs du site j'ai effectivement vu que près de 10x par seconde cette page était appelle par un bingbot2 et ce toutes les secondes.

J'ai désactivée cette page, les logs ont continuée passant du code 200 à 301, jusque le lendemain vers 4h. Ensuite, retour au calme et une charge serveur à 10% Max.

J'ai réactive la page... Des le lendemain 2h du matin, le problème est réapparu... J'attends les logs pour confirmer la relation, mais je suis quasi certain de revoir la même chose.

Qu'est-ce que cela vous inspire et que pourrais-je faire pour enrayer cela ?

Merci a vous.
 
WRInaute passionné
Bonjour,

Tant que tu n'a pas découvert le problème, le mieux serait d’interdire l'accès à cette page au bot via ton .htacces.

Ensuite, regarde tes logs serveurs pour connaitre la page référente par laquelle le bot arrive. Cela pourrait te donner une idée de cette sur-multitude d'accès.

Rod
 
Nouveau WRInaute
merci de ta réponse.

voici exactement le genre d'entrée que je vois dans les logs :

157.55.17.151 - - [16/May/2012:00:00:10 +0200] "GET /cyborgjeff/site/albums/divagation-se-1997/%26layout=button_count%26show_faces=false%26width=250%26action=like%26colorscheme=light%26font=arial%26height=35px/1997/02/24/344-4u2-ethnic-drums-ftl-mix-16/1997/04/10/372-ego/1997/03/23/365-2-3-frutti-dance-classics/1997/02/24/344-4u2-ethnic-drums-ftl-mix-16/1997/04/10/370-introduction-of-dream-part-ii/1996/11/27/279-moon-day/1996/11/27/279-moon-day/1997/04/04/368-deep-house-titanic-mix/1997/04/10/372-ego/1997/04/10/372-ego/1997/04/05/369-i-get-no-sleep-part-2/1997/03/03/351-one-month-but-three-weeks-without-you-mixing/1997/03/16/361-hey-mister-dj/1997/02/12/335-space-del/1997/02/12/335-space-del/ HTTP/1.1" 301 - "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

ce qui est bizarre, c'est évidemment tout qui se retrouve après la page du site : /cyborgjeff/site/albums/divagation-se-1997

tout le blabla layout, showface,... suivi ensuite d'autre pages du sites...
comment interpreter cela... les appelles viennent de ces pages de mon site ou est-ce un appel qui les touche toute d'un coup.

que puis-je mettre comme script pour bloquer l'accès de bingot dans le .htaccess ?
 
Nouveau WRInaute
j'ai ajouté ceci dans le fichier .htaccess, cela vous parait juste ? peut mieux faire ?

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*(msnbot).* [NC] # Si le user agent contient la chaine msnbot
RewriteRule ^.* - [F,L] # On interdit alors l'accès à la page

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*(bingbot).* [NC] # Si le user agent contient la chaine msnbot
RewriteRule ^.* - [F,L] # On interdit alors l'accès à la page

--

j'avais aussi mis hier ce code pour bloquer les intrusions de spams (même si elles sont très rare... cela vous semble correcte ?)

# protection contre le spam
RewriteCond %{REQUEST_METHOD} POST
RewriteCond %{REQUEST_URI} .wp-comments-post\.php*
RewriteCond %{HTTP_REFERER} !.*NOMDEMONSITE* [OR]
RewriteCond %{HTTP_USER_AGENT} ^$
RewriteRule (.*) ^http://%{REMOTE_ADDR}/$ [R=301,L]
 
WRInaute passionné
Si ce bout de code est placé dans le .htaccess principal, ça bloquera le bot pour l'intégralité du site.
C'est pas l'idéal...

Sinon, tu peux tenter par le fichier robots.txt
User-agent: bingbot
Disallow : /LaPage.html
 
WRInaute passionné
Ne pas confondre bingbot2 et bingbot... l'un est un faux, l'autre est un bon.

C'est probablement une tentative de deny of service.
 
Nouveau WRInaute
merci à vous deux.

Koxin, j'ai mis ce code dans le .htaccess uniquement du site à problème. de suite la saturation du serveur est descendue. mais effectivement de ce système j'en bloque l'accès à tout le site.... en même temps si je ne bloque que la page, rien ne l'empechera d'ici qq temps de s'en prendre à une autre page.

anemone,... sur base de mon log, qu'en conclus-tu ? Bingbot ? Bingbot 2 ? vrai ou faux ? les adresses IP liées semblent collées à des serveurs chez Microsoft...

et si je voulais bloquer les appelles de pages aussi tordu

/cyborgjeff/site/albums/divagation-se-1997/%26layout=button_count%26show_faces=false%26width=250%26action=like%26colorscheme=light%26font=arial%26height=35px/1997/02/24/344-4u2-ethnic-drums-ftl-mix-16/1997/04/10/372-ego/1997/03/23/365-2-3-frutti-dance-classics/1997/02/24/344-4u2-ethnic-drums-ftl-mix-16/1997/04/10/370-introduction-of-dream-part-ii/1996/11/27/279-moon-day/1996/11/27/279-moon-day/1997/04/04/368-deep-house-titanic-mix/1997/04/10/372-ego/1997/04/10/372-ego/1997/04/05/369-i-get-no-sleep-part-2/1997/03/03/351-one-month-but-three-weeks-without-you-mixing/1997/03/16/361-hey-mister-dj/1997/02/12/335-space-del/1997/02/12/335-space-del/

la page de mon site n'est que de type :
/cyborgjeff/site/albums/divagation-se-1997

tout ce bataclan là déjà est suspect : /%26layout=button_count%26show_faces=false%26width=250%26action=like%26colorscheme=light%26font=arial%26height=35px
 
Nouveau WRInaute
Oui les différentes IP détectée était comme cela ciblée Microsoft.

Alors pq diable tourne-t-il ainsi en boucle sur mon site ?
 
Nouveau WRInaute
Sinon comment pourrais je bloquer les tentatives d'accès de ce genre, eninterdisant des trucs genre %26 ? Dans les urls ?

Et que faire comme 'redirection' qui serait efficace pour dissuader le bot de revenir et ne pas surcharger les serveur de requêtes ?
 
WRInaute passionné
A part tester les ip qui chargent la page et kicker celles qui reviennent toutes les x secondes, il n'y a pas trop de solution si tu ne trouve pas la cause.

Le problème, c'est que kicker un bot... ça peut-être pénalisant.
 
Nouveau WRInaute
ouaip, et le soucis, c'est que les IPs en question semblent toutes être liée à Microsoft !

sans faire le tour du log, en 3 minutes j'ai déjà plusieurs dizaines de visites de ces adresses avec cet seul et unique requete !

65.52.110.151
157.55.18.24
157.55.17.150
157.55.16.177
65.52.110.143
207.46.204.224
207.46.13.160
207.46.204.232
 
WRInaute passionné
De toute façon les bots, ils ne viennent pas part hasard.

Tant que le referer n'aura pas été identifié... Tu ne pourra rien faire à part les bloquer ou supprimer ta page.
 
Nouveau WRInaute
tu veux dire, tant que je ne saurais pas d'où vient cet appel, dans quel site on fait référence à cela !?
 
WRInaute passionné
Oui.

Si le bot vient direct sur ta page, impossible d'en connaitre la raison, donc là, c'est blocage ou suppression obligatoire.
Si tu identifie un ou plusieurs referer, tu pourra sans doute déterminer ce qui les poussent à venir aussi souvent et à y remédier.
 
Nouveau WRInaute
Tiens petite question, histoire de continuer à soulager l'affaire. Pour l'instant afin d'en interdire l'accès au site, j'ai mis ceci dans le fichier .htaccess

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*(bingbot).* [NC] # Si le user agent contient la chaine msnbot
RewriteRule ^.* - [F,L] # On interdit alors l'accès à la page

cela fait dans les logs des codes 403 - 1034 lorsque BingBot tente d'y accéder, mais leur nombre restent toujours aussi important, voir en progression...

lorsque j'avais désactiver la page, la réponse était en 404, Bingbot semblait s'être lassé en quelques heures...

quel est la meilleur méthode à utiliser pour lui refuser l'accès ?

au besoin, tu peux me conseiller une zone du forum plus appropriée pour discuter de cela.
 
WRInaute occasionnel
J'ai le même genre de soucis avec bingbot/2.0 ... je ne sais pas spécialement quoi faire pour ne pas tout vérouiller de manière arbitraire.
 
Nouveau WRInaute
Hello,

en réalité avec mon fichier .htacces j'ai bloqué la surcharge serveur mais pas les requêtes intempestives de BingBot.
si tu as checké qu'il s'agissait bien de requete venant des serveurs microsoft (voir plus haut), j'ai finalement mis un fichier ROBOTS.TXT avec les éléments suivant qui dès le lendemain fait disparaitre toutes ses requêtes désagréables.

User-agent: *
Disallow: /wp-*
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.swf$
Disallow: /*.cgi$
Disallow: /*%26layout=*
Disallow: /*xoops_url*

il interdit ainsi à TOUS les bots d'indexer tous les répertoires et fichiers commençant par wp- (à savoir tout ce qui est sensible à Wordpress)
les fichiers php, javascript, css, ...

dans mon cas bien précis toutes les urls contenant &layout= qui était celle qui m'embêtait

et j'ai également ajoutée celle contenant xoops_url, car j'ai vu qu'il y en avait quelques unes dans les logs, sans aucune raison (il n'y a plus de xoops sur ce serveur depuis des années...

Vu qu'il s'agissait bien de requête officiel Bingbot, ce dernier s'est plié à ma demande !
 
Haut