1. ✅ Apprenez une METHODE qui marche pour votre SEO ! Formation à distance avec Olivier Duffez et Fabien Facériès + aide pour prise en charge du financement
    Rejeter la notice

Que peut simuler un aspirateur de site ? UserAgent, IP

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Zecat, 1 Septembre 2010.

  1. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    Une petite question pour les spécialistes (*) : Un aspi peut très facilement changer son user agent pour dire "je suis firefox, je suis IE, je suis duchmoll".

    Mais peut il aussi simuler l'ip de son choix et par exemple se connecter a un site avec l'IP de google ou de yahoo ? si oui comment ?

    (*) ca c'est typiquement une question pour les jcaron and Co :wink:
     
  2. rudddy
    rudddy WRInaute passionné
    Inscrit:
    1 Août 2007
    Messages:
    2 142
    J'aime reçus:
    0
    Re: Que peut simuler un aspi ?

    ca c'est typiquement une question à moi
    Quel est ton prochain dessein crasseux ? :twisted:
     
  3. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    Re: Que peut simuler un aspi ?

    Je n'ai aucun dessin crasseux, c'est juste pour mieux les contrer. J'ai mis en place une usine anti aspi sur un site et un pote me lache dans un mail : "il suffit que l'aspi spoof l'ip et le user agent d'un bot connu et ton systeme est out" :cry:

    Donc j'essaye de savoir ce qui est possible ou pas et comment pour mieux le contrer ..
     
  4. u8086
    u8086 WRInaute passionné
    Inscrit:
    24 Mai 2004
    Messages:
    2 446
    J'aime reçus:
    0
    spoofing d'IP

    Faire du spoofing d'IP pour aspirer un site n'a d'intérêt que si le site fait du cloaking. Le spoofing d'IP, c'est pas à la portée du premier kikoulol venu.
     
  5. Shunkawakan
    Shunkawakan WRInaute discret
    Inscrit:
    22 Mars 2009
    Messages:
    144
    J'aime reçus:
    0
    Re: Que peut simuler un aspi ?

    [HS]
    Zecat !! t'es un Kikoulol !!! :lol:
    [/HS]
    Ok... :arrow:
     
  6. jcaron
    jcaron WRInaute accro
    Inscrit:
    13 Février 2004
    Messages:
    2 593
    J'aime reçus:
    0
    Le spoofing d'IP en TCP (et donc en HTTP)

    Le spoofing d'IP à la base c'est super facile (c'est un peu comme avec le mail, c'est toi qui choisis ce que tu mets comme émetteur). Le spoofing d'IP en TCP (et donc en HTTP) c'est nettement plus difficile, vu qu'il ne va jamais recevoir les réponses, donc il a du mal à faire un discussion complète. Il fut un temps il y avait des failles dans de nombreuses implémentations de TCP qui permettaient de continuer à "discuter" même sans recevoir les réponses, en devinant ce qu'elles devaient être; ce n'est généralement plus le cas de nos jours.

    Donc si tu te limites à du HTTP et si tu vérifies les IPs elles-mêmes et les compares à des IPs dont il est établi de façon certaine que ce sont celles des crawlers de Google, tu n'as pas trop de risque.

    Si par contre pour déterminer si c'est une IP Google ou autre tu consultes le reverse DNS, ça c'est très facile à manipuler. Il faut donc dans ce cas refaire un lookup "forward" pour vérifier que le nom renvoyé correspond bien à l'IP.

    Exemple: tu reçois une requête de l'IP 1.2.3.4. Tu fais un lookup reverse, on te dit que c'est crawler-5678.google.com. Si tu t'arrêtes-là, tu pourrais croire que c'est Google. Mais si tu fais un lookup "forward" de crawler-5678.google.com, soit tu ne vas rien obtenir (NXDOMAIN), soit tu vas obtenir une ou plusieurs adresses IP qui ne correspondent pas (par exemple 5.6.7.8 et 6.7.8.9). Dans ce cas, tu peux douter assez sérieusement que ce soit effectivement Google (mais pas à 100%: il y a beaucoup de cas où les reverse et forward DNS ne sont pas vraiment correctement configurés). Evidemment, tes regex doivent aussi être un minimum sûres, que le gars qui te balance comme reverse crawler.5678-google.com ou crawler.google.com.5678.com ne soit pas accepté, par exemple (ce qui est vite fait si tu oublies d'escaper les . ou d'ancrer ta regex).

    Note cependant que suivant ce dont tu cherches à te protéger exactement, toutes sortes d'"attaques" sont concevables qui utiliseraient en fait des vrais serveurs de Google ou d'autres pour venir voir des trucs chez toi plus ou moins téléguidés par quelqu'un d'autre, mais c'est probablement une autre problématique.

    Jacques.
     
  7. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    Re: Que peut simuler un aspi ?

    Bon ca me rassure ... je viens d faire un test en live avec madri ... et manifestement ma detection tient la route ... la seule ruse a été de passer par google mobile pour choper un morceau seulement d'une page ... je suis en train de verrouiller ca aussi ...
     
  8. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    Re: Que peut simuler un aspi ?

    Une femme ?

    :arrow:
     
  9. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 413
    J'aime reçus:
    0
    Re: Que peut simuler un aspi ?

    et un subterfuge du genre mettre une ip de google et comme adresse de proxy son ip perso et, en fait, l'information s'arrêterait sur le proxy (vu que c'est le vrai demandeur).
    Est-ce faisable, parce que j'ai vu dans mes logs des fois des bizarreries de ce genre ?
     
  10. Haroeris
    Haroeris WRInaute impliqué
    Inscrit:
    13 Avril 2010
    Messages:
    653
    J'aime reçus:
    0
    Re: Que peut simuler un aspi ?

    Ne pourrais on pas imaginer un aspirateur qui au lieux de se connecter sur ton site, se connecterait au cache google lui même.
    Que pourrais tu faire contre cela ? (a part peut être interdire la mise en cache par google ^^)
     
  11. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    Re: Que peut simuler un aspi ?

    en même temps s'ils aspirent le cache de google où est le soucis ? il consomme pas ma bande passante, et Google aura tot fait de l'arrêter en bloquant son ip :)
     
  12. Haroeris
    Haroeris WRInaute impliqué
    Inscrit:
    13 Avril 2010
    Messages:
    653
    J'aime reçus:
    0
    Je pensais que c'était surtout pour protéger ton contenu :wink:
    Pour l'ip ça c'est pas un problème, des sites comme positeo ont résolus ce genre de problème depuis longtemps :mrgreen:
    Il suffit d'avoir des milliers de proxys à disposition, plusieurs box internet, et quelques centaines de milliers de PC zombis fournis par les russes :D
     
  13. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    Est ce que la solution ultime n'est pas :

    1 - avoir une liste de robots identifiés (google, yahoo etc)
    2 - Identifier le type de visite sur la page (pages de recherche, referent, navigation interne dans le site, accès direct)
    3 - Interdir d'office toute visite en accès direct a une page et n'autoriser que :

    - ce qui vient d'un lien referant
    - ce qui vient d'une page de recherche
    - les navigations internes

    (Bien sur permettre les accès directs pour les robots identifiés.

    Vous en pensez quoi ?
     
  14. Haroeris
    Haroeris WRInaute impliqué
    Inscrit:
    13 Avril 2010
    Messages:
    653
    J'aime reçus:
    0
    Je dirais qu'il faut limiter le nombre de hit par minute pour tout robot non identifié, et rediriger soit vers une page html minimaliste sur ton serveur soit vers un fichier texte de 50mega hébergé à un autre endroit :wink:
     
  15. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    Vu que la tendance générale va à la disparition du référent et aux navigations privées. C'est pas gagné tout ca
     
  16. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    Ca c'est déjà fait ... j'ai meme un systeme triple :

    - nb de page par seconde et si atteint --> Ban (je l'ai réglé à 3)
    - nb de page par minutes et si atteint --> Ban (je l'avait réglé a 30 puis à 25 puis descendu à 20 ce qui semble pas mal)
    - passage sur des liens pieges (1pixel) non affichés si robots connus --> Ban (mes liens pieges changent de place et d'url a chaque fois pour ne pas être repéré par les aspi).

    Ca élimine déjà un sacré paquet de candidats sniffeurs ... mais il en reste (je les voit nettement dans mon interface d'admin) :

    - Ce sont des accès direct aux pages et éclatés sur plusieurs IP (on les voit bien car elles font une serie de page a b c d e f reparties sur N IP et dans le tas certaines ne passe pas sur les liens pieges ...).

    Et donc j eme demande si la soluce ets pas d'interdir tout acces direct a une page (ou plus soft de renvoyer sur la home tout accès direct a une page profonde).

    Note : j'ai adopté comme règle un ban "soft" dans des fichiers et pas un ban par htaccess :

    1 - ca permet de tout automatiser
    2 - ca me permet de mémoriser dans des logs lorsque des ip ban continuent (parce que c'est con un aspi !) a revenir sniffer 5 pages par secondes ! et bien sur sont redirigées sur la page "vous etes banni" ...

    Au pire si un aspi insiste trop, la je le colle en manuel en deny dans htaccess mais sinon c'est tout automatique sans intervention
     
  17. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    Heu j'ai pas tout saisi ... tu peux détailler ces deux points ?
     
  18. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    la navigation privée via Chrome par exemple ou l'absence de référents avec certains navigateurs, ca risque pas de poser un pb avec ton système ?
     
  19. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    C'est quoi la nav privée (j utilise pas chrome) ?

    Quels navig ne renvoie pas de referant ?

    Pou rle moment mon systeme filtre pas trop mal mais il y a des trou et donc j'ajuste le resserage des mailles au fur et a mesure :wink:
     
  20. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    Pour la navigation privée sous Chrome :

    "Vous êtes passé en navigation privée. Les pages que vous consultez dans cette fenêtre n'apparaîtront ni dans l'historique de votre navigateur ni dans l'historique des recherches, et ne laisseront aucune trace (comme les cookies) sur votre ordinateur une fois que vous aurez fermé la fenêtre de navigation privée. Tous les fichiers téléchargés et les favoris créés seront toutefois conservés.

    Passer en navigation privée n'a aucun effet sur les autres utilisateurs, serveurs ou logiciels. Méfiez-vous :
    des sites Web qui collectent ou partagent des informations vous concernant ;
    des fournisseurs d'accès Internet ou des employeurs qui conservent une trace des pages que vous visitez ;
    des programmes indésirables qui enregistrent vos frappes en échange d'émoticônes gratuites ;
    des agents secrets ;
    des personnes qui se tiennent derrière vous."
     
  21. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    Quel impact sur mon systeme ? je n'utilise pas les cookies.
     
  22. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
  23. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 789
    J'aime reçus:
    452
    CTRL+MAJ+N sous Chrome
    CTRL+MAJ+P sous Firefox ou IE

    ;-)
     
  24. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
  25. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    Sincèrement pour les deux points que j'ai soulevé, je n'en sais fichtrement rien. Je ne sais pas ce que fait en pratique la navigation privée. Elle n'a pas l'air de cacher l'ip
     
  26. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    certe smais si elle cache le referer, les aspi en accès direct sont encore plus noyés parmi des clics venant de referer ... pas simple ...
     
  27. Haroeris
    Haroeris WRInaute impliqué
    Inscrit:
    13 Avril 2010
    Messages:
    653
    J'aime reçus:
    0
    une question, le bande passante utilisée par les spiders est aussi importante que ca ? Ton dispositif parait impressionnant.

    Combien de bande passante est perdue sans protection sur ton site ?
     
  28. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    1 - non non c'est plus impressionnant qu'il n'y parait. Tout cela est finalement assez light (stockage dans fichier txt of course). Par exemple les liens pieges ca se limite a coller (si pas un bot identifié )un lien de ci de la de type image de 1 pixel qui envoie vers un bout de code php qui :

    a) ajoute date et ip dans fichier des ip bannies
    b) fait un header vers la page home du site

    Et ensuite a chaque entree dans une page, un strpos pour savoir si ip bannie et si oui un header vers "degage mec" :mrgreen:

    Donc tu vois rien de bien lourd. ca doit tenir en 10 ou 15 lignes de code et ca consomme que dalle.

    2 - Ce n'est pas la conso de bande passante que je veux contrer mais l'aspi des infos de mes pages. Que le gars se fasse à la main 1 10 ou meme 100 copier coller, pas de bleme ... mais qu'il m'aspire 10.000 100.000 ou 300.000 pages pour les rebalancer a sa sauce sur le web, la je coince. Et donc si je peux leur compliquer la tache, je me prive pas et meme si il y a des failles, je dois bloquer la majorité des aspi ...

    Note : En plus comme c'est un site tres international au niveau visiteurs, meme le pays de provenance ne peut pas me servir comme une alerte ... sur le mois d'aout :

    ****** visites, provenant de 87 pays/territoires.

    avec en moyenne 30 à 35 pays différents par jour ...
     
  29. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 413
    J'aime reçus:
    0
    donc tu m'interdirais de revenir sur une de tes pages que j'aurais bookmarquée ? :cry:
     
  30. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    Effectivement pas glop glop ... à creuser
     
  31. Haroeris
    Haroeris WRInaute impliqué
    Inscrit:
    13 Avril 2010
    Messages:
    653
    J'aime reçus:
    0
    Je pense que ta quête de l'arme absolue est vaine, c'est impossible d'empêcher un scan, si tu veux je pourrais te prouver que je peux passer tes protections et quand bien même tu aurais le script ultime, rien n'empêche de tout repomper à la main.

    Les protections que tu as mis en place éliminent déjà la majorité des scans , je pense qu'il serrait maintenant plus efficace de développer un outil qui détecte le duplicate content et d'envoyer des mails demandant de retirer les dit contenus aux webmasters peut délicats.
     
  32. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    Ca ca reste a voir ... y a tellement de pieges à aspi qui trainent que pour pas tomber dans au moins un, faut faire un sacré slalom ! Le seul truc ou je reconnais que pour le moment ca ^passe au travers est un spoofing bien fait ... bref à la portée de 1 % des sniffeur du dimanche à la petite semaine ... Meme les repartitions sur plusieurs IP via proxy passent désormais à la trappe de façon automatique (chaque matin au reveil je regarde la liste des mouches collées sur le rubans :mrgreen: .
    Sur 3 millions de pages ? :wink:
    Je confirme ...
    La nature du contenu rend la chose virtuellement impossible ... les contenus en eux meme n'ont rien d'original, c'est leur agrégation qui l'est ... Donc je me concentre sur le "en amont" ...
     
  33. Haroeris
    Haroeris WRInaute impliqué
    Inscrit:
    13 Avril 2010
    Messages:
    653
    J'aime reçus:
    0
    30000000 de seconde ( 10s pour une page par un humain )

    347 jours pour une personne

    400 chinois feront ca en une journée (24h)

    50 centime de l'heure le chinois

    4800 euros pour un scan complet de ton site en une journée

    Ca fait peur hein :mrgreen:
     
  34. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    Non parce que meme a la main, ca va allumer des girophare tout rouge dans mes systmes de comptages dans les 20 premieres secondes ! En plus le site grossit de 1 million de pages par mois environ normalement (enfin la il a que 2 mois le petio) et virtuellement les 3 milliosn de pages existantes sont modifiées chaque mois , donc va falloir revenir dessus... Ils vont pouvoir s'user la corne des doigts les bridés :mrgreen:

    Note : Je suis en france pour quelques jours a partir de demain matin (je suis pas encore parti que il me tarde d'etre revenu :mrgreen: ) ... et je vais croiser mon pote skyll (une petite bouffe en passant) et a qui j'ai prévu de montrer le systeme en détail, il vous fera un compte rendu (vu de son point de vu à lui).

    PS : Tu oublie que pour tes 400 bridés, faudra 400 becannes dispo ... qui au bout de 20 secondes ne vont plus leur servir a rien ... pas rentable tout ces effort piour ... rien :mrgreen:
     
  35. raljx
    raljx WRInaute passionné
    Inscrit:
    10 Juillet 2006
    Messages:
    2 064
    J'aime reçus:
    0
    wouarff t'es ou le chat en France ? du coté du sud ?
     
  36. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    0
    Yes nice cannes mandelieu ... bref retour aux sources

    De toute façon je remonte plus au dessus du "83 paralèle" (ligne bordeaux à nice), il y fait trop froid :mrgreen:
     
  37. raljx
    raljx WRInaute passionné
    Inscrit:
    10 Juillet 2006
    Messages:
    2 064
    J'aime reçus:
    0
    donc va faire un tour dans ta caisse privée :)
     
Chargement...
Similar Threads - simuler aspirateur UserAgent Forum Date
simuler navigateur en langue anglaise Développement d'un site Web ou d'une appli mobile 6 Septembre 2019
Simuler une position géographique pour du référencement local Débuter en référencement 19 Janvier 2017
Outil sur le Net pour simuler une recherche dans les Serps mobile Annuaires et moteurs 22 Avril 2015
Simuler un clic sur un lien intercepté Netlinking, backlinks, liens et redirections 27 Janvier 2013
simuler sur un serveur de Dev le comportement du bot Google Crawl et indexation Google, sitemaps 10 Décembre 2012
Outil pour simuler l'interprétation des style CSS par Google bot Référencement Google 11 Juin 2012
Est-il possible de simuler une variable de session ? Développement d'un site Web ou d'une appli mobile 30 Décembre 2011
Simuler erreur 404 dans fichier htaccess Développement d'un site Web ou d'une appli mobile 31 Juillet 2011
Wordpress : dissimuler les chemins typés WP dans la source Développement d'un site Web ou d'une appli mobile 25 Mars 2010
Reécriture pour simuler un répertoire Développement d'un site Web ou d'une appli mobile 10 Janvier 2010