bon
je crois que l'annonce d'un nouveau service online a eveillé certaines convoitises (pas ici)
le lendemain de l'annonce j'ai été victime de plusieurs scans
donc j'ai réagi et j'ai pondu un script pour bannir certains comportements
mais un des scanners m'a ruiné mon fichier error.log
il a une huge liste de fichiers sensibles possible, il scanne le site et dès qu'il trouve un dossier il le scanne en appliquant cette liste (fichiers .bak,.conf, etc)
il m'a juste fait + de 200 000 requêtes
donc pour eviter que ça se reproduise, je vais pondre un script pour le detecter et le bannir
la question qui me taraude c'est d'éviter de bannir un gentil crawler
qui lui aussi pourrait avoir des mauvais liens et crawler des 404
sachant que les header http sont totalement customizables, je ne peux pas prendre le risque d'etablir une liste de trusted bots qui permettrait au scanner de se sentir chez lui dans mon espace web
quelques idées pour eviter de bannir googlebot ?
rog
je crois que l'annonce d'un nouveau service online a eveillé certaines convoitises (pas ici)
le lendemain de l'annonce j'ai été victime de plusieurs scans
donc j'ai réagi et j'ai pondu un script pour bannir certains comportements
mais un des scanners m'a ruiné mon fichier error.log
il a une huge liste de fichiers sensibles possible, il scanne le site et dès qu'il trouve un dossier il le scanne en appliquant cette liste (fichiers .bak,.conf, etc)
il m'a juste fait + de 200 000 requêtes
donc pour eviter que ça se reproduise, je vais pondre un script pour le detecter et le bannir
la question qui me taraude c'est d'éviter de bannir un gentil crawler
qui lui aussi pourrait avoir des mauvais liens et crawler des 404
sachant que les header http sont totalement customizables, je ne peux pas prendre le risque d'etablir une liste de trusted bots qui permettrait au scanner de se sentir chez lui dans mon espace web
quelques idées pour eviter de bannir googlebot ?
rog