Que peut simuler un aspirateur de site ? UserAgent, IP

Zecat

WRInaute accro
Une petite question pour les spécialistes (*) : Un aspi peut très facilement changer son user agent pour dire "je suis firefox, je suis IE, je suis duchmoll".

Mais peut il aussi simuler l'ip de son choix et par exemple se connecter a un site avec l'IP de google ou de yahoo ? si oui comment ?

(*) ca c'est typiquement une question pour les jcaron and Co :wink:
 

rudddy

WRInaute passionné
Re: Que peut simuler un aspi ?

ca c'est typiquement une question à moi
Zecat a dit:
Mais peut il aussi simuler l'ip de son choix et par exemple se connecter a un site avec l'IP de google ou de yahoo ? si oui comment ?
Quel est ton prochain dessein crasseux ? :twisted:
 

Zecat

WRInaute accro
Re: Que peut simuler un aspi ?

rudddy a dit:
ca c'est typiquement une question à moi
Zecat a dit:
Mais peut il aussi simuler l'ip de son choix et par exemple se connecter a un site avec l'IP de google ou de yahoo ? si oui comment ?
Quel est ton prochain dessein crasseux ? :twisted:
Je n'ai aucun dessin crasseux, c'est juste pour mieux les contrer. J'ai mis en place une usine anti aspi sur un site et un pote me lache dans un mail : "il suffit que l'aspi spoof l'ip et le user agent d'un bot connu et ton systeme est out" :cry:

Donc j'essaye de savoir ce qui est possible ou pas et comment pour mieux le contrer ..
 

u8086

WRInaute passionné
spoofing d'IP

Faire du spoofing d'IP pour aspirer un site n'a d'intérêt que si le site fait du cloaking. Le spoofing d'IP, c'est pas à la portée du premier kikoulol venu.
 

jcaron

WRInaute accro
Le spoofing d'IP en TCP (et donc en HTTP)

Le spoofing d'IP à la base c'est super facile (c'est un peu comme avec le mail, c'est toi qui choisis ce que tu mets comme émetteur). Le spoofing d'IP en TCP (et donc en HTTP) c'est nettement plus difficile, vu qu'il ne va jamais recevoir les réponses, donc il a du mal à faire un discussion complète. Il fut un temps il y avait des failles dans de nombreuses implémentations de TCP qui permettaient de continuer à "discuter" même sans recevoir les réponses, en devinant ce qu'elles devaient être; ce n'est généralement plus le cas de nos jours.

Donc si tu te limites à du HTTP et si tu vérifies les IPs elles-mêmes et les compares à des IPs dont il est établi de façon certaine que ce sont celles des crawlers de Google, tu n'as pas trop de risque.

Si par contre pour déterminer si c'est une IP Google ou autre tu consultes le reverse DNS, ça c'est très facile à manipuler. Il faut donc dans ce cas refaire un lookup "forward" pour vérifier que le nom renvoyé correspond bien à l'IP.

Exemple: tu reçois une requête de l'IP 1.2.3.4. Tu fais un lookup reverse, on te dit que c'est crawler-5678.google.com. Si tu t'arrêtes-là, tu pourrais croire que c'est Google. Mais si tu fais un lookup "forward" de crawler-5678.google.com, soit tu ne vas rien obtenir (NXDOMAIN), soit tu vas obtenir une ou plusieurs adresses IP qui ne correspondent pas (par exemple 5.6.7.8 et 6.7.8.9). Dans ce cas, tu peux douter assez sérieusement que ce soit effectivement Google (mais pas à 100%: il y a beaucoup de cas où les reverse et forward DNS ne sont pas vraiment correctement configurés). Evidemment, tes regex doivent aussi être un minimum sûres, que le gars qui te balance comme reverse crawler.5678-google.com ou crawler.google.com.5678.com ne soit pas accepté, par exemple (ce qui est vite fait si tu oublies d'escaper les . ou d'ancrer ta regex).

Note cependant que suivant ce dont tu cherches à te protéger exactement, toutes sortes d'"attaques" sont concevables qui utiliseraient en fait des vrais serveurs de Google ou d'autres pour venir voir des trucs chez toi plus ou moins téléguidés par quelqu'un d'autre, mais c'est probablement une autre problématique.

Jacques.
 

Zecat

WRInaute accro
Re: Que peut simuler un aspi ?

MagicYoyo a dit:
Faire du spoofing d'IP pour aspirer un site n'a d'intérêt que si le site fait du cloaking. Le spoofing d'IP, c'est pas à la portée du premier kikoulol venu.
Bon ca me rassure ... je viens d faire un test en live avec madri ... et manifestement ma detection tient la route ... la seule ruse a été de passer par google mobile pour choper un morceau seulement d'une page ... je suis en train de verrouiller ca aussi ...
 

Leonick

WRInaute accro
Re: Que peut simuler un aspi ?

et un subterfuge du genre mettre une ip de google et comme adresse de proxy son ip perso et, en fait, l'information s'arrêterait sur le proxy (vu que c'est le vrai demandeur).
Est-ce faisable, parce que j'ai vu dans mes logs des fois des bizarreries de ce genre ?
 

Haroeris

WRInaute impliqué
Re: Que peut simuler un aspi ?

Ne pourrais on pas imaginer un aspirateur qui au lieux de se connecter sur ton site, se connecterait au cache google lui même.
Que pourrais tu faire contre cela ? (a part peut être interdire la mise en cache par google ^^)
 

finstreet

WRInaute accro
Re: Que peut simuler un aspi ?

Haroeris a dit:
Ne pourrais on pas imaginer un aspirateur qui au lieux de se connecter sur ton site, se connecterait au cache google lui même.
Que pourrais tu faire contre cela ? (a part peut être interdire la mise en cache par google ^^)

en même temps s'ils aspirent le cache de google où est le soucis ? il consomme pas ma bande passante, et Google aura tot fait de l'arrêter en bloquant son ip :)
 

Haroeris

WRInaute impliqué
Je pensais que c'était surtout pour protéger ton contenu :wink:
Pour l'ip ça c'est pas un problème, des sites comme positeo ont résolus ce genre de problème depuis longtemps :mrgreen:
Il suffit d'avoir des milliers de proxys à disposition, plusieurs box internet, et quelques centaines de milliers de PC zombis fournis par les russes :D
 

Zecat

WRInaute accro
Est ce que la solution ultime n'est pas :

1 - avoir une liste de robots identifiés (google, yahoo etc)
2 - Identifier le type de visite sur la page (pages de recherche, referent, navigation interne dans le site, accès direct)
3 - Interdir d'office toute visite en accès direct a une page et n'autoriser que :

- ce qui vient d'un lien referant
- ce qui vient d'une page de recherche
- les navigations internes

(Bien sur permettre les accès directs pour les robots identifiés.

Vous en pensez quoi ?
 

Haroeris

WRInaute impliqué
Je dirais qu'il faut limiter le nombre de hit par minute pour tout robot non identifié, et rediriger soit vers une page html minimaliste sur ton serveur soit vers un fichier texte de 50mega hébergé à un autre endroit :wink:
 

finstreet

WRInaute accro
Zecat a dit:
Est ce que la solution ultime n'est pas :

1 - avoir une liste de robots identifiés (google, yahoo etc)
2 - Identifier le type de visite sur la page (pages de recherche, referent, navigation interne dans le site, accès direct)
3 - Interdir d'office toute visite en accès direct a une page et n'autoriser que :

- ce qui vient d'un lien referant
- ce qui vient d'une page de recherche
- les navigations internes

(Bien sur permettre les accès directs pour les robots identifiés.

Vous en pensez quoi ?

Vu que la tendance générale va à la disparition du référent et aux navigations privées. C'est pas gagné tout ca
 

Zecat

WRInaute accro
Haroeris a dit:
Je dirais qu'il faut limiter le nombre de hit par minute pour tout robot non identifié, et rediriger soit vers une page html minimaliste sur ton serveur soit vers un fichier texte de 50mega hébergé à un autre endroit :wink:
Ca c'est déjà fait ... j'ai meme un systeme triple :

- nb de page par seconde et si atteint --> Ban (je l'ai réglé à 3)
- nb de page par minutes et si atteint --> Ban (je l'avait réglé a 30 puis à 25 puis descendu à 20 ce qui semble pas mal)
- passage sur des liens pieges (1pixel) non affichés si robots connus --> Ban (mes liens pieges changent de place et d'url a chaque fois pour ne pas être repéré par les aspi).

Ca élimine déjà un sacré paquet de candidats sniffeurs ... mais il en reste (je les voit nettement dans mon interface d'admin) :

- Ce sont des accès direct aux pages et éclatés sur plusieurs IP (on les voit bien car elles font une serie de page a b c d e f reparties sur N IP et dans le tas certaines ne passe pas sur les liens pieges ...).

Et donc j eme demande si la soluce ets pas d'interdir tout acces direct a une page (ou plus soft de renvoyer sur la home tout accès direct a une page profonde).

Note : j'ai adopté comme règle un ban "soft" dans des fichiers et pas un ban par htaccess :

1 - ca permet de tout automatiser
2 - ca me permet de mémoriser dans des logs lorsque des ip ban continuent (parce que c'est con un aspi !) a revenir sniffer 5 pages par secondes ! et bien sur sont redirigées sur la page "vous etes banni" ...

Au pire si un aspi insiste trop, la je le colle en manuel en deny dans htaccess mais sinon c'est tout automatique sans intervention
 

finstreet

WRInaute accro
Zecat a dit:
finstreet a dit:
Vu que la tendance générale va à la disparition du référent et aux navigations privées. C'est pas gagné tout ca
Heu j'ai pas tout saisi ... tu peux détailler ces deux points ?

la navigation privée via Chrome par exemple ou l'absence de référents avec certains navigateurs, ca risque pas de poser un pb avec ton système ?
 

Zecat

WRInaute accro
C'est quoi la nav privée (j utilise pas chrome) ?

Quels navig ne renvoie pas de referant ?

Pou rle moment mon systeme filtre pas trop mal mais il y a des trou et donc j'ajuste le resserage des mailles au fur et a mesure :wink:
 

finstreet

WRInaute accro
Pour la navigation privée sous Chrome :

"Vous êtes passé en navigation privée. Les pages que vous consultez dans cette fenêtre n'apparaîtront ni dans l'historique de votre navigateur ni dans l'historique des recherches, et ne laisseront aucune trace (comme les cookies) sur votre ordinateur une fois que vous aurez fermé la fenêtre de navigation privée. Tous les fichiers téléchargés et les favoris créés seront toutefois conservés.

Passer en navigation privée n'a aucun effet sur les autres utilisateurs, serveurs ou logiciels. Méfiez-vous :
des sites Web qui collectent ou partagent des informations vous concernant ;
des fournisseurs d'accès Internet ou des employeurs qui conservent une trace des pages que vous visitez ;
des programmes indésirables qui enregistrent vos frappes en échange d'émoticônes gratuites ;
des agents secrets ;
des personnes qui se tiennent derrière vous."
 

finstreet

WRInaute accro
Zecat a dit:
finstreet a dit:
Ca c'est effectivement plus ennuyeux ... et donc dans ce cas on ne peut plus distinguer un accès direct à une page d'un accès via un referer ?

Sincèrement pour les deux points que j'ai soulevé, je n'en sais fichtrement rien. Je ne sais pas ce que fait en pratique la navigation privée. Elle n'a pas l'air de cacher l'ip
 

Zecat

WRInaute accro
certe smais si elle cache le referer, les aspi en accès direct sont encore plus noyés parmi des clics venant de referer ... pas simple ...
 

Haroeris

WRInaute impliqué
une question, le bande passante utilisée par les spiders est aussi importante que ca ? Ton dispositif parait impressionnant.

Combien de bande passante est perdue sans protection sur ton site ?
 

Zecat

WRInaute accro
Haroeris a dit:
une question, le bande passante utilisée par les spiders est aussi importante que ca ? Ton dispositif parait impressionnant.

Combien de bande passante est perdue sans protection sur ton site ?
1 - non non c'est plus impressionnant qu'il n'y parait. Tout cela est finalement assez light (stockage dans fichier txt of course). Par exemple les liens pieges ca se limite a coller (si pas un bot identifié )un lien de ci de la de type image de 1 pixel qui envoie vers un bout de code php qui :

a) ajoute date et ip dans fichier des ip bannies
b) fait un header vers la page home du site

Et ensuite a chaque entree dans une page, un strpos pour savoir si ip bannie et si oui un header vers "degage mec" :mrgreen:

Donc tu vois rien de bien lourd. ca doit tenir en 10 ou 15 lignes de code et ca consomme que dalle.

2 - Ce n'est pas la conso de bande passante que je veux contrer mais l'aspi des infos de mes pages. Que le gars se fasse à la main 1 10 ou meme 100 copier coller, pas de bleme ... mais qu'il m'aspire 10.000 100.000 ou 300.000 pages pour les rebalancer a sa sauce sur le web, la je coince. Et donc si je peux leur compliquer la tache, je me prive pas et meme si il y a des failles, je dois bloquer la majorité des aspi ...

Note : En plus comme c'est un site tres international au niveau visiteurs, meme le pays de provenance ne peut pas me servir comme une alerte ... sur le mois d'aout :

****** visites, provenant de 87 pays/territoires.

avec en moyenne 30 à 35 pays différents par jour ...
 

Haroeris

WRInaute impliqué
Je pense que ta quête de l'arme absolue est vaine, c'est impossible d'empêcher un scan, si tu veux je pourrais te prouver que je peux passer tes protections et quand bien même tu aurais le script ultime, rien n'empêche de tout repomper à la main.

Les protections que tu as mis en place éliminent déjà la majorité des scans , je pense qu'il serrait maintenant plus efficace de développer un outil qui détecte le duplicate content et d'envoyer des mails demandant de retirer les dit contenus aux webmasters peut délicats.
 

Zecat

WRInaute accro
Haroeris a dit:
Je pense que ta quête de l'arme absolue est vaine, c'est impossible d'empêcher un scan, si tu veux je pourrais te prouver que je peux passer tes protections .
Ca ca reste a voir ... y a tellement de pieges à aspi qui trainent que pour pas tomber dans au moins un, faut faire un sacré slalom ! Le seul truc ou je reconnais que pour le moment ca ^passe au travers est un spoofing bien fait ... bref à la portée de 1 % des sniffeur du dimanche à la petite semaine ... Meme les repartitions sur plusieurs IP via proxy passent désormais à la trappe de façon automatique (chaque matin au reveil je regarde la liste des mouches collées sur le rubans :mrgreen: .
Haroeris a dit:
et quand bien même tu aurais le script ultime, rien n'empêche de tout repomper à la main.
Sur 3 millions de pages ? :wink:
Haroeris a dit:
Les protections que tu as mis en place éliminent déjà la majorité des scans ,.
Je confirme ...
Haroeris a dit:
je pense qu'il serrait maintenant plus efficace de développer un outil qui détecte le duplicate content et d'envoyer des mails demandant de retirer les dit contenus aux webmasters peut délicats.
La nature du contenu rend la chose virtuellement impossible ... les contenus en eux meme n'ont rien d'original, c'est leur agrégation qui l'est ... Donc je me concentre sur le "en amont" ...
 

Haroeris

WRInaute impliqué
Zecat a dit:
Haroeris a dit:
et quand bien même tu aurais le script ultime, rien n'empêche de tout repomper à la main.
Sur 3 millions de pages ? :wink:

30000000 de seconde ( 10s pour une page par un humain )

347 jours pour une personne

400 chinois feront ca en une journée (24h)

50 centime de l'heure le chinois

4800 euros pour un scan complet de ton site en une journée

Ca fait peur hein :mrgreen:
 

Zecat

WRInaute accro
Non parce que meme a la main, ca va allumer des girophare tout rouge dans mes systmes de comptages dans les 20 premieres secondes ! En plus le site grossit de 1 million de pages par mois environ normalement (enfin la il a que 2 mois le petio) et virtuellement les 3 milliosn de pages existantes sont modifiées chaque mois , donc va falloir revenir dessus... Ils vont pouvoir s'user la corne des doigts les bridés :mrgreen:

Note : Je suis en france pour quelques jours a partir de demain matin (je suis pas encore parti que il me tarde d'etre revenu :mrgreen: ) ... et je vais croiser mon pote skyll (une petite bouffe en passant) et a qui j'ai prévu de montrer le systeme en détail, il vous fera un compte rendu (vu de son point de vu à lui).

PS : Tu oublie que pour tes 400 bridés, faudra 400 becannes dispo ... qui au bout de 20 secondes ne vont plus leur servir a rien ... pas rentable tout ces effort piour ... rien :mrgreen:
 

Zecat

WRInaute accro
raljx a dit:
wouarff t'es ou le chat en France ? du coté du sud ?
Yes nice cannes mandelieu ... bref retour aux sources

De toute façon je remonte plus au dessus du "83 paralèle" (ligne bordeaux à nice), il y fait trop froid :mrgreen:
 

Discussions similaires

Haut