cURL et statistiques

Discussion dans 'Débuter en référencement' créé par souri84, 22 Avril 2011.

  1. souri84
    souri84 Nouveau WRInaute
    Inscrit:
    15 Juin 2009
    Messages:
    31
    J'aime reçus:
    0
    Bonjour à tous,

    J'ai une petite question qui me taraude : j'utilise cURL pour aller visiter les sites de mes concurrents et rapporter quelques informations de veille (rien de bien méchant...)

    Est-ce que le passage de mon script sur leurs sites internet est transparent ou le voient-ils sur leurs statistiques ?

    D'avance merci pour votre réponse,
     
  2. forty
    forty WRInaute passionné
    Inscrit:
    30 Octobre 2008
    Messages:
    1 929
    J'aime reçus:
    0
    si tu mets un user agent qui ressemble à ceux des navigateurs et que tu ne mets pas l'aspirateur à fond (pas trop de pages et récupération de chacune avec un petit sleep() entre) il y a peu de chance de se faire repérer.
     
  3. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    Bah chez moi, tu verras un joli... rien :) car justement t'es vu.
     
  4. Blount
    Blount WRInaute impliqué
    Inscrit:
    18 Novembre 2010
    Messages:
    701
    J'aime reçus:
    0
    Sur quel site ? :)
     
  5. forty
    forty WRInaute passionné
    Inscrit:
    30 Octobre 2008
    Messages:
    1 929
    J'aime reçus:
    0
    C'est impossible de détecter CURL si tu paramètres bien les options et que l'IP de ton serveur n'abuse pas.
     
  6. souri84
    souri84 Nouveau WRInaute
    Inscrit:
    15 Juin 2009
    Messages:
    31
    J'aime reçus:
    0
    Ok, donc y aller molo et ajouter un sleep() pour ne pas se faire repérer.

    Merci à tous pour vos réponses,

    Thibaut
     
  7. Blount
    Blount WRInaute impliqué
    Inscrit:
    18 Novembre 2010
    Messages:
    701
    J'aime reçus:
    0
    Pas forcément.
    Tu crois que le navigateur met des temporisations pour récupérer toutes les ressources du site (image, css, JS, etc.) ?

    Si tu gères les cookies et un ptit referer propre, ils ne peuvent pas être sur à 100% que tu ne sois pas un humain.
     
  8. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    User-Agent: vBulletin via cURL/PHP

    C'est pas tous les curl mais bon...
     
  9. Blount
    Blount WRInaute impliqué
    Inscrit:
    18 Novembre 2010
    Messages:
    701
    J'aime reçus:
    0
    Bin justement, le but est de configurer cURL pour qu'il se fasse passer pour un navigateur du marché, et cela se fait très simplement. C'est d'ailleurs la première chose que je fais quand j'utilise cURL.
    Et c'est ce qui sera fait si le gars se rend compte qu'il ne récupère rien ;)
     
  10. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    et légalement c'est autorisé ?
     
  11. Blount
    Blount WRInaute impliqué
    Inscrit:
    18 Novembre 2010
    Messages:
    701
    J'aime reçus:
    0
    Pourquoi cela ne le serait pas ?
    Interdire la récupération de contenu revient à interdire la navigation sur le site. Tout dépend de ce qui est fait.
     
  12. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    Petite nuance. Il y a visite, aspiration, avec l'impossibilité de bloquer cet acte (comme tout robot "officiel"). Et comme tu dis, ca dépend de ce qui est fait du contenu. Par exemple, faire de la veille et revendre une information provenant d'une aspiration de site que le site ne peut interdire. Pas sur que ce soit légal.
     
  13. Blount
    Blount WRInaute impliqué
    Inscrit:
    18 Novembre 2010
    Messages:
    701
    J'aime reçus:
    0
    Oui, mais il est tout à fait possible de faire cela avec un navigateur comme Firefox. La légalité n'a rien à voir avec l'outil utilisé.
    Je peux très bien utiliser cURL pour me faire un navigateur maison, il en est capable ;)

    Un outils d'agrégation de flux RSS/Atom pourrait très bien utiliser cURL.

    Donc, ce n'est pas l'outil qui est à contrôler, c'est ce qui est fait avec le contenu récupéré.
     
  14. bartom_34
    bartom_34 Nouveau WRInaute
    Inscrit:
    2 Juillet 2010
    Messages:
    29
    J'aime reçus:
    0
    Lorsque j'aspire des pages de Yahoo avec un sleep(), il me bloque quand même à un certain niveau et je n'ai pas trouvé comment contourner ce blocage. Pourtant, mon sleep est de 2s et je pensais que cela suffirait mais ce n'est pas le cas.
     
  15. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    Blount... quelque soit l'outil, je ne suis pas sur que légalement, tu aies le droit d'aspirer tout un site.
     
  16. Blount
    Blount WRInaute impliqué
    Inscrit:
    18 Novembre 2010
    Messages:
    701
    J'aime reçus:
    0
    La question est de savoir pourquoi ce ne serait pas légale ? Si je souhaite m'en faire une copie pour une utilisation hors ligne ?
    Si Google a le droit, pourquoi pas moi ?

    Je ne dirais pas que c'est légale ou non, je ne sais pas. Personnellement, j'ai aspiré un site une fois pour tester « wget », je n'ai jamais recommencé puisqu'inutile pour moi.

    De toute façon, je ne faisais pas référence à cURL pour l'aspiration de site entier.
     
  17. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    2
    Google aurait le droit car il y a la possibilité de bloquer ce robot. Il ne se cache pas.

    Cependant, si l'aspiration est automatique et se traduit par un plantage du site (possible pour le petit site), alors là y'a un soucis, car c'est interprété comme une attaque informatique au sens de la loi
     
  18. souri84
    souri84 Nouveau WRInaute
    Inscrit:
    15 Juin 2009
    Messages:
    31
    J'aime reçus:
    0
    et bien quel débat ! :D

    Le site en question fait environ 100 000 visiteurs par jour. Ce n'est donc pas mon petit script qui va le planter.

    Et surtout, je ne revends pas les informations récupérées sur le site (qui les fournit gratuitement - quel intérêt pour moi alors de les vendre ?)

    Après, il est vrai que peux récupérer par période beaucoup de données (avec DOM si vraiment il y a bcp de données), notamment en décembre et avril et octobre. Après, les autres mois, c'est très dérisoire.
     
Chargement...
Similar Threads - cURL statistiques Forum Date
Lecture Header avec CURL et outil WRI Développement d'un site Web ou d'une appli mobile 25 Janvier 2020
Lecture entete HTTP avec CURL et 403 Développement d'un site Web ou d'une appli mobile 31 Octobre 2019
Php CURL : se connecter à Leboncoin Développement d'un site Web ou d'une appli mobile 22 Août 2018
Curl et une page de connexion Développement d'un site Web ou d'une appli mobile 9 Février 2018
CURL error sur un mutualisé Développement d'un site Web ou d'une appli mobile 16 Mars 2017
Problème de modication du code html d'un site en CURL et DOM PHP Développement d'un site Web ou d'une appli mobile 11 Avril 2014
CURL sur une page externe Développement d'un site Web ou d'une appli mobile 19 Avril 2010
Snapshot website avec php CURL Développement d'un site Web ou d'une appli mobile 28 Mars 2010
CURL qui passe pas Développement d'un site Web ou d'une appli mobile 2 Décembre 2009
Je n'ai plus de statistiques sur google analytics Google Analytics 14 Avril 2020