Robots : n'autoriser que les 4 ou 5 moteurs de recherche principaux

WRInaute discret
Bonjour
Comment bloquer au plus haut niveau tous les autres robots que Google, Bing, Yahoo, et Qwant, qui surchargent inutilement nos serveurs et faussent les stats Google analytics.
La plupart de ces robots nuisibles ne sont d'ailleurs pas pour des moteurs de recherche, mais envoyés par des espions à but lucratif (oui, je sais Google et Bing aussi, mais ils sont indispensables à notre référencement).
Les robots malhonnêtes ne tiennent pas compte des directives de robots.txt.
 
WRInaute accro
Depuis le fichier robots.txt à condition qu'ils le respectent ;)
Ou alors bloquer les ip en question depuis le fichier htaccess.
 
WRInaute discret
Je pense que la plupart des robots parasites (scrapers) ne respectent pas les restrictions demandées dans robots.txt, et je trouverais plus simple et plus efficace la solution de n'autoriser QUE les 4 ou 5 robots de moteurs de recherche principaux, en bloquant tout le reste, plutôt que de bloquer les IP de chaque robot indésirable (la liste est très longue).
Ex de liste de robots nuisibles :
DotBot .
GiftGhostBot .
Seznam .
PaperLiBot .
Genieo .
Dataprovider/6.101 .
Dataprovider Site Explorer .
Dazoobot/1.0 .
Diffbot .
DomainStatsBot/1.0 .
DotBot/1.1 .
dubaiindex .
eCommerceBot .
ExpertSearchSpider .
Feedbin .
Fetch/2.0a .
FFbot/1.0 .
focusbot/1.1 .
HuaweiSymantecSpider .
HuaweiSymantecSpider/1.0 .
JobdiggerSpider .
LemurWebCrawler .
Lipperhey Link Explorer .
LSSRocketCrawler/1.0 .
LYT.SR v1.5 .
MiaDev/0.0.1 .
Najdi.si/3.1 .
Bountii Bot .
Experibot_v1 .
 
WRInaute impliqué
Bonjour
Comment bloquer au plus haut niveau tous les autres robots que Google, Bing, Yahoo, et Qwant, qui surchargent inutilement nos serveurs et faussent les stats Google analytics.

Les bots les plus malicieux ne s'annoncent pas comme tels et ignorent le robots.txt, comme le dit cthierry.
Ta liste ne concerne (j'imagine) que ceux que tu as déjà rencontrés... mais bloquer tous les bots susceptibles de venir sur ton site est une tâche monstrueuse si tu t'y colles tout seul.
Si tu veux vraiment faire quelque chose avant même que les bots ne passent chez toi, tu peux aller voir ce qui existe déjà, comme par exemple pour Apache : https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker
près de 600 mauvais bots, plus de 200 faux GoogleBot, et pas loin de 7000 autres bloqués, ça fait déjà une base.

Personnellement, j'ai un peu lâché cette approche. J'ai créé un script pour voir s'il y a des activités étranges, et je bloque quand ça devient insistant. Mais dans les listes de bots/serveurs existantes, la plupart ne viendront jamais sur mon site, et de nouveaux inconnus de ces listes viendront tenter de pourrir mon site. C'est comme ça :-/
 
Discussions similaires
Haut