Comment trouver la vraie adresse IP d'un crawler ?

poupilou · 13 Février 2019

Saut à tous,

Depuis quelques jours j'ai une saloperie de robot qui spam mes formulaires html et passent à travers tous les filtres que j'ai mis en place lors du traitement php de mes formulaires.

Son adresse IP est 185.136.156.195, je l'ai bloqué via iptable "iptables -A INPUT -s 185.136.156.195 -j DROP" mais il continue de crawler mes sites.

J'en déduit donc que l'IP 185.136.156.195 n'est pas sa vraie adresse IP, comment trouver sa vraie adresse IP et comment le bloquer ?

Comment peut-on masquer sa vraie IP et usurper une IP ?

Merci pour votre aide.

poupilou · 21 Février 2019

Je désespère de pouvoir bloquer cette saloperie de robot.

J'ai un formulaire newsletter afin que mes visiteurs puissent s'abonner à ma newsletter mais ce robot depuis plus de 3 semaines poste des 100 emails (bidons ou pas) via mon formulaire. Je ne comprends pas d'ailleurs dans quel but !

J'ai mis en place plusieurs filtres (champs caché input vide, session php rempli dans un autre input, etc...) lors du contrôle du formulaire mais il passe à travers et continue de spammer.

Il a plus d'une centaine d'adresses IP différentes, il utilise parfois des blocs d'IP du type 185.220.101.22, 185.220.101.60, 185.220.101.88, 185.220.101.101, etc... ce qui me fait dire qu'il n'utilise pas systématiquement les IP d'ordinateurs zombis mais ces propres IP, que faire et comment le bloquer ?

rollback · 22 Février 2019

c'est difficile de bloquer totalement les robots malveillants. C'est très automatisé, les outils sont enseignés dans tous les cours de sécurité et beaucoup de newbies les utilisent, c'est très accessible à tous, même à ceux qui ne connaissent pas grand chose.
Dès qu'on a simplement un serveur sur le wouaib, si on s'intéresse aux logs, aux tests d'accès malveillants, la partie robot automatique est colossale. Donc on apprend a lourder ce trafic, tout en ne lourdant pas les clients. Seul, face à tout ce qui se promène sur le wouaib, c'est peine perdue. Dons il y a des endroits centralisés qui déjà servent à maintenir des listes d'IP d'emmerdeurs.
On ne va pas faire un cours sur la sécurité, ni un débat sur les CMS, les langes de programmations, les systèmes d'exploitation...
Revenons aux formulaires
Donc quelques pistes.
Tout le monde le dira, déjà un système de capha correctement programmé fera du bien.
Mais les capchas, ca diminue le nombre de conversions et parfois on n'en veut pas...
Autre solution, des formulaire en 2 étapes minimum, si le type de formulaire le permet (c'est ce qu'on voit dans les login de gmail, microsoftt live...). Et bien sur, une action graphique pour passer d'une étape à l'autre, et bien sur un check entre les 2 étapes. Les bots remplissent très rarement et très mal les champs referer et son nuls en javascript alambiqué. Aussi, dans le protocole http, il y a énormément de champs optionnels qu'on peut utiliser pour taguer entre les deux étapes (ou même vérifier en une étape que ce n'est pas un robot).

Agir en live : si on doit bloquer des IP en "live". On pourrait penser ajouter à la volée des lignes :
deny from xxx.www.yyyy.zzz dans le fichier htacess (de mémoire on doit pouvoir aussi bloquer des blocs d'adresses avec de la notation CIDR, donc xxx.www.yyyy.zzz/truc mais a vérifier)
Il y a aussi des plugins qui le font.

Mais c'est lourd et ne sera pas pris en compre tant qu'on ne redémarre pas apache. Impossible.

Une très bonne solution live : rewritemap
Il faut un peu bricoler pour que ca fonctionne, mais le principe est simple et dynamic.
Il y a queqlques exemples sur le wouaib une fois qu'on cherche avec les bons mots clefs
https://lindev.fr/index.php?post/2009/06/09/Bannir-une/des-ip-via-Apache

En gros, avec l'url rewritting et le mot clef rewritemap, on peut aller chercher le contenu d'un fichier texte
Par exemple un fichier blackip
Ensuite, on peut via quelques rewritecond bricoler pour décider des actions en fonction du contenu
Par exemple : ip visiteur dans blacklist envoie vers page
L'intérêt principal est que ce même fichier auquel il faut bien sur donner les droits à apache et à "nous", on peut le bricoler en live, et dès la prochaine requête, pas besoin de rebooter apache, en tiendra compte.

L'air de rien, c'est royal, parce que les bots malveillants automatiques, on les envoie dans le décor, vers des sites, d'autres machines ou ils tournent en rond dans les des liens de liens, et cela de manière automatisée.

Pour les détecter (!!! il faut accepter les ip de google), simplement un lien caché des visiteurs.
Les robots le crawleront et pas les humains.

Partie statique: prendre des liste (à jour) telles que
http://en.linuxreviews.org/HOWTO_stop_automated_spam-bots_using_.htaccess
D"jà on enlève quelques emmerdeurs (et la on me dit : les outils malveillants changent en deux ligens de code leur signature useragent . C'est vrai, mais dans 91% des cas, seules les versions commerciales des logiciels malveillants dument acuittées, le permetttent. Les newbies utilisent les versions gratuites, et les versions graqtuites font leur pub via le champ useragent et ecrivent en gros leur nom dans le champ useragent)

zikeur54 · 22 Février 2019

Si quelqu'un pouvait me dire comment je pourrais virer lecliniumpointcom de mon site ça m'arrangerait aussi.

spout · 22 Février 2019

Soluce ultra cheap qui bloque pas mal de robots (sauf s'ils ciblent ton site) :

PHP:

<?php
$name = md5('is_human');
?>
<input type="hidden" name="<?php echo $name; ?>" value="">

<script>
document.querySelector('input[name="<?php echo $name; ?>"]').value = "<?php echo $name; ?>";
</script>

if (empty($_POST[$name]) || $_POST[$name] !== $name) {
    die('sucker');
}

poupilou · 22 Février 2019

Merci pour ta longue réponse rollback et tes explications. Merci aussi à Spout.

J'ai mis en place dans mon formulaire html le système de captcha de Google (reCAPTCHA v3), je vais voir déjà voir si ce captcha empêche ce robot de spammer mon formulaire, si non je mettrais alors en place la solution de Spout.

Par curiosité : quel est l'intérêt pour ce robot de spammer mon formulaire newsletter. Les emails qui sont postés via ce formulaire sont uniquement stockés dans ma BDD mais je n'envoie pas d'emails à l'email qui a été posté !

rollback · 23 Février 2019

Il faut bien regarder ce qu'il essaie de poster, des failles, de l'injection...
du temps perdu...
(une fois chez un client sa messagerie a été mis hs pendant une nuit. Un des formulaires n'était pas protégé et il distribuait des email en interne dans un CRM chaque fois qu'il y avait une saisie formulaire. Des bots on envoyé plus de 100 formulaire à la minute. En quelques heure durant la nuit tout la messagerie de la boite est tombée gravement HS, il a fallu plusieurs jours pour remettre en état le fonctionnement de la boite)

rollback · 23 Février 2019

acunetix ce genre de tool sont rudes avec les formulaires

poupilou · 26 Février 2019

Plus aucun spam ne passe depuis que j'ai mis en place le reCaptcha v3 de Google dans mon formulaire, c'est redoutable d'efficacité ce plugin