1. ⭐⭐⭐ Grosse PROMO en cours sur ma plateforme SEO My Ranking Metrics
    Rejeter la notice

Envahi par bingbot!

Discussion dans 'Référencement Bing' créé par cyborgjeff, 17 Mai 2012.

  1. cyborgjeff
    cyborgjeff Nouveau WRInaute
    Inscrit:
    1 Novembre 2007
    Messages:
    14
    J'aime reçus:
    0
    Bonjour à tous, je fais appel à vous afin de m'aider à résoudre un problème important.
    Début mai mon hébergeur, très sérieux infomaniak à du mettre mon site en quarantaine, car ce dernier consommait 100% du cpu serveur.

    Après diverses analyse, mise à jour, ajout de plugin super cache pour wordpress dans mes 4 installations WP, le problème n'était pas résolu. Une chose me paraissait anormal, en 15 jours une page unique de mon serveur à été visitée 660000 fois, sans raison apparente. Cette dernière n'a pas de grande différence avec les autres et son code semble sain. Dans les logs du site j'ai effectivement vu que près de 10x par seconde cette page était appelle par un bingbot2 et ce toutes les secondes.

    J'ai désactivée cette page, les logs ont continuée passant du code 200 à 301, jusque le lendemain vers 4h. Ensuite, retour au calme et une charge serveur à 10% Max.

    J'ai réactive la page... Des le lendemain 2h du matin, le problème est réapparu... J'attends les logs pour confirmer la relation, mais je suis quasi certain de revoir la même chose.

    Qu'est-ce que cela vous inspire et que pourrais-je faire pour enrayer cela ?

    Merci a vous.
     
  2. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 891
    J'aime reçus:
    8
    Bonjour,

    Tant que tu n'a pas découvert le problème, le mieux serait d’interdire l'accès à cette page au bot via ton .htacces.

    Ensuite, regarde tes logs serveurs pour connaitre la page référente par laquelle le bot arrive. Cela pourrait te donner une idée de cette sur-multitude d'accès.

    Rod
     
  3. cyborgjeff
    cyborgjeff Nouveau WRInaute
    Inscrit:
    1 Novembre 2007
    Messages:
    14
    J'aime reçus:
    0
    merci de ta réponse.

    voici exactement le genre d'entrée que je vois dans les logs :

    157.55.17.151 - - [16/May/2012:00:00:10 +0200] "GET /cyborgjeff/site/albums/divagation-se-1997/%26layout=button_count%26show_faces=false%26width=250%26action=like%26colorscheme=light%26font=arial%26height=35px/1997/02/24/344-4u2-ethnic-drums-ftl-mix-16/1997/04/10/372-ego/1997/03/23/365-2-3-frutti-dance-classics/1997/02/24/344-4u2-ethnic-drums-ftl-mix-16/1997/04/10/370-introduction-of-dream-part-ii/1996/11/27/279-moon-day/1996/11/27/279-moon-day/1997/04/04/368-deep-house-titanic-mix/1997/04/10/372-ego/1997/04/10/372-ego/1997/04/05/369-i-get-no-sleep-part-2/1997/03/03/351-one-month-but-three-weeks-without-you-mixing/1997/03/16/361-hey-mister-dj/1997/02/12/335-space-del/1997/02/12/335-space-del/ HTTP/1.1" 301 - "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

    ce qui est bizarre, c'est évidemment tout qui se retrouve après la page du site : /cyborgjeff/site/albums/divagation-se-1997

    tout le blabla layout, showface,... suivi ensuite d'autre pages du sites...
    comment interpreter cela... les appelles viennent de ces pages de mon site ou est-ce un appel qui les touche toute d'un coup.

    que puis-je mettre comme script pour bloquer l'accès de bingot dans le .htaccess ?
     
  4. cyborgjeff
    cyborgjeff Nouveau WRInaute
    Inscrit:
    1 Novembre 2007
    Messages:
    14
    J'aime reçus:
    0
    j'ai ajouté ceci dans le fichier .htaccess, cela vous parait juste ? peut mieux faire ?

    RewriteEngine on
    RewriteCond %{HTTP_USER_AGENT} ^.*(msnbot).* [NC] # Si le user agent contient la chaine msnbot
    RewriteRule ^.* - [F,L] # On interdit alors l'accès à la page

    RewriteEngine on
    RewriteCond %{HTTP_USER_AGENT} ^.*(bingbot).* [NC] # Si le user agent contient la chaine msnbot
    RewriteRule ^.* - [F,L] # On interdit alors l'accès à la page

    --

    j'avais aussi mis hier ce code pour bloquer les intrusions de spams (même si elles sont très rare... cela vous semble correcte ?)

    # protection contre le spam
    RewriteCond %{REQUEST_METHOD} POST
    RewriteCond %{REQUEST_URI} .wp-comments-post\.php*
    RewriteCond %{HTTP_REFERER} !.*NOMDEMONSITE* [OR]
    RewriteCond %{HTTP_USER_AGENT} ^$
    RewriteRule (.*) ^http://%{REMOTE_ADDR}/$ [R=301,L]
     
  5. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 891
    J'aime reçus:
    8
    Si ce bout de code est placé dans le .htaccess principal, ça bloquera le bot pour l'intégralité du site.
    C'est pas l'idéal...

    Sinon, tu peux tenter par le fichier robots.txt
    User-agent: bingbot
    Disallow : /LaPage.html
     
  6. anemone-clown
    anemone-clown WRInaute passionné
    Inscrit:
    11 Novembre 2007
    Messages:
    1 572
    J'aime reçus:
    11
    Ne pas confondre bingbot2 et bingbot... l'un est un faux, l'autre est un bon.

    C'est probablement une tentative de deny of service.
     
  7. cyborgjeff
    cyborgjeff Nouveau WRInaute
    Inscrit:
    1 Novembre 2007
    Messages:
    14
    J'aime reçus:
    0
    merci à vous deux.

    Koxin, j'ai mis ce code dans le .htaccess uniquement du site à problème. de suite la saturation du serveur est descendue. mais effectivement de ce système j'en bloque l'accès à tout le site.... en même temps si je ne bloque que la page, rien ne l'empechera d'ici qq temps de s'en prendre à une autre page.

    anemone,... sur base de mon log, qu'en conclus-tu ? Bingbot ? Bingbot 2 ? vrai ou faux ? les adresses IP liées semblent collées à des serveurs chez Microsoft...

    et si je voulais bloquer les appelles de pages aussi tordu

    /cyborgjeff/site/albums/divagation-se-1997/%26layout=button_count%26show_faces=false%26width=250%26action=like%26colorscheme=light%26font=arial%26height=35px/1997/02/24/344-4u2-ethnic-drums-ftl-mix-16/1997/04/10/372-ego/1997/03/23/365-2-3-frutti-dance-classics/1997/02/24/344-4u2-ethnic-drums-ftl-mix-16/1997/04/10/370-introduction-of-dream-part-ii/1996/11/27/279-moon-day/1996/11/27/279-moon-day/1997/04/04/368-deep-house-titanic-mix/1997/04/10/372-ego/1997/04/10/372-ego/1997/04/05/369-i-get-no-sleep-part-2/1997/03/03/351-one-month-but-three-weeks-without-you-mixing/1997/03/16/361-hey-mister-dj/1997/02/12/335-space-del/1997/02/12/335-space-del/

    la page de mon site n'est que de type :
    /cyborgjeff/site/albums/divagation-se-1997

    tout ce bataclan là déjà est suspect : /%26layout=button_count%26show_faces=false%26width=250%26action=like%26colorscheme=light%26font=arial%26height=35px
     
  8. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 891
    J'aime reçus:
    8
  9. cyborgjeff
    cyborgjeff Nouveau WRInaute
    Inscrit:
    1 Novembre 2007
    Messages:
    14
    J'aime reçus:
    0
    Oui les différentes IP détectée était comme cela ciblée Microsoft.

    Alors pq diable tourne-t-il ainsi en boucle sur mon site ?
     
  10. cyborgjeff
    cyborgjeff Nouveau WRInaute
    Inscrit:
    1 Novembre 2007
    Messages:
    14
    J'aime reçus:
    0
    Sinon comment pourrais je bloquer les tentatives d'accès de ce genre, eninterdisant des trucs genre %26 ? Dans les urls ?

    Et que faire comme 'redirection' qui serait efficace pour dissuader le bot de revenir et ne pas surcharger les serveur de requêtes ?
     
  11. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 891
    J'aime reçus:
    8
    A part tester les ip qui chargent la page et kicker celles qui reviennent toutes les x secondes, il n'y a pas trop de solution si tu ne trouve pas la cause.

    Le problème, c'est que kicker un bot... ça peut-être pénalisant.
     
  12. cyborgjeff
    cyborgjeff Nouveau WRInaute
    Inscrit:
    1 Novembre 2007
    Messages:
    14
    J'aime reçus:
    0
    ouaip, et le soucis, c'est que les IPs en question semblent toutes être liée à Microsoft !

    sans faire le tour du log, en 3 minutes j'ai déjà plusieurs dizaines de visites de ces adresses avec cet seul et unique requete !

    65.52.110.151
    157.55.18.24
    157.55.17.150
    157.55.16.177
    65.52.110.143
    207.46.204.224
    207.46.13.160
    207.46.204.232
     
  13. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 891
    J'aime reçus:
    8
    De toute façon les bots, ils ne viennent pas part hasard.

    Tant que le referer n'aura pas été identifié... Tu ne pourra rien faire à part les bloquer ou supprimer ta page.
     
  14. cyborgjeff
    cyborgjeff Nouveau WRInaute
    Inscrit:
    1 Novembre 2007
    Messages:
    14
    J'aime reçus:
    0
    tu veux dire, tant que je ne saurais pas d'où vient cet appel, dans quel site on fait référence à cela !?
     
  15. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 891
    J'aime reçus:
    8
    Oui.

    Si le bot vient direct sur ta page, impossible d'en connaitre la raison, donc là, c'est blocage ou suppression obligatoire.
    Si tu identifie un ou plusieurs referer, tu pourra sans doute déterminer ce qui les poussent à venir aussi souvent et à y remédier.
     
  16. cyborgjeff
    cyborgjeff Nouveau WRInaute
    Inscrit:
    1 Novembre 2007
    Messages:
    14
    J'aime reçus:
    0
    Tiens petite question, histoire de continuer à soulager l'affaire. Pour l'instant afin d'en interdire l'accès au site, j'ai mis ceci dans le fichier .htaccess

    RewriteEngine on
    RewriteCond %{HTTP_USER_AGENT} ^.*(bingbot).* [NC] # Si le user agent contient la chaine msnbot
    RewriteRule ^.* - [F,L] # On interdit alors l'accès à la page

    cela fait dans les logs des codes 403 - 1034 lorsque BingBot tente d'y accéder, mais leur nombre restent toujours aussi important, voir en progression...

    lorsque j'avais désactiver la page, la réponse était en 404, Bingbot semblait s'être lassé en quelques heures...

    quel est la meilleur méthode à utiliser pour lui refuser l'accès ?

    au besoin, tu peux me conseiller une zone du forum plus appropriée pour discuter de cela.
     
  17. boby55
    boby55 WRInaute occasionnel
    Inscrit:
    2 Avril 2008
    Messages:
    359
    J'aime reçus:
    0
    J'ai le même genre de soucis avec bingbot/2.0 ... je ne sais pas spécialement quoi faire pour ne pas tout vérouiller de manière arbitraire.
     
  18. cyborgjeff
    cyborgjeff Nouveau WRInaute
    Inscrit:
    1 Novembre 2007
    Messages:
    14
    J'aime reçus:
    0
    Hello,

    en réalité avec mon fichier .htacces j'ai bloqué la surcharge serveur mais pas les requêtes intempestives de BingBot.
    si tu as checké qu'il s'agissait bien de requete venant des serveurs microsoft (voir plus haut), j'ai finalement mis un fichier ROBOTS.TXT avec les éléments suivant qui dès le lendemain fait disparaitre toutes ses requêtes désagréables.

    User-agent: *
    Disallow: /wp-*
    Disallow: /*.php$
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /*.gz$
    Disallow: /*.wmv$
    Disallow: /*.swf$
    Disallow: /*.cgi$
    Disallow: /*%26layout=*
    Disallow: /*xoops_url*

    il interdit ainsi à TOUS les bots d'indexer tous les répertoires et fichiers commençant par wp- (à savoir tout ce qui est sensible à Wordpress)
    les fichiers php, javascript, css, ...

    dans mon cas bien précis toutes les urls contenant &layout= qui était celle qui m'embêtait

    et j'ai également ajoutée celle contenant xoops_url, car j'ai vu qu'il y en avait quelques unes dans les logs, sans aucune raison (il n'y a plus de xoops sur ce serveur depuis des années...

    Vu qu'il s'agissait bien de requête officiel Bingbot, ce dernier s'est plié à ma demande !
     
Chargement...
Similar Threads - Envahi bingbot Forum Date
Mon trafic rechute, publicité envahissante ? Problèmes de référencement spécifiques à vos sites 19 Avril 2019
Ai-je fait de la publicité envahissante ? Demandes d'avis et de conseils sur vos sites 4 Janvier 2019
Liens entrants envahis par des .ru Problèmes de référencement spécifiques à vos sites 19 Novembre 2014
Un cheval de troie envahit mes pages .php Développement d'un site Web ou d'une appli mobile 27 Septembre 2010
Erreur avec bingbot Référencement Bing 20 Février 2013
BingBot change son user agent Référencement Bing 23 Octobre 2010
Le robot Bingbot est arrivé (en avance) Référencement Bing 29 Septembre 2010
Mise à jour de CrawlTrack pour la prise en compte de Bingbot Développement d'un site Web ou d'une appli mobile 7 Septembre 2010
MSNbot change de nom pour Bingbot Référencement Bing 30 Juin 2010
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice