récupérer le contenue d'une page web

Discussion dans 'Développement d'un site Web ou d'une appli mobile' créé par johnny-57, 24 Mars 2010.

  1. johnny-57
    johnny-57 WRInaute occasionnel
    Inscrit:
    20 Avril 2007
    Messages:
    292
    J'aime reçus:
    0
    Bonjour,

    J'utilise le code suivant pour récupérer le contenue d'une page web afin de vérifier si une entreprise est bien enregistrée ou non.
    Jusqu'à présent je le fais sur un site non officiel mais le problème c'est qu'il ne contient pas 100% des entreprises française, je voulais donc faire la même chose sur le site de l'insee mais ça coince.

    Voilà mon code :
    Code:
    
    $urlfichier = "http://avis-situation-sirene.insee.fr/avisitu/IdentificationEtabToEntr.do?siren=$siren";
    $flux = implode ('', file ($urlfichier));
    
    
    Mais sur le site de l'insee j'ai cette erreur du coup :

    Code:
    
    Warning: file(http://avis-situation-sirene.insee.fr/avisitu/IdentificationEtabToEntr.do?siren=) [function.file]: failed to open stream: HTTP request failed! HTTP/1.1 500 Erreur Interne de Servlet in wget.php on line 6
    
    Warning: implode() [function.implode]: Bad arguments. in wget.php on line 6
    
    
    Je patoge, quelqun aurait une idée pour m'aider ?

    Merci d'avance,
     
  2. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    1
    Ils n'ont peut être pas envie d'etre aspirés ... et donc ils ont fermé les vannes :roll: :?:
     
  3. johnny-57
    johnny-57 WRInaute occasionnel
    Inscrit:
    20 Avril 2007
    Messages:
    292
    J'aime reçus:
    0
    Peut être bien que oui, mais dans ce cas quoi faire ? Est il possible de tenter de contourner ?
    Perso je ne veux rien aspirer, je veux juste automatiser la vérification de la validité d'un numéro siren.
     
  4. jcaron
    jcaron WRInaute accro
    Inscrit:
    13 Février 2004
    Messages:
    2 593
    J'aime reçus:
    0
    Si tu veux juste vérifier sa validité, il y a une formule (le dernier chiffre est une clef sur les autres). Si tu veux vérifier que la société existe réellement, il doit y avoir des webservices (payants) pour ça...

    Il y a un webservice gratuit sur un site de l'UE pour valider les numéros de TVA intracomm, mais évidemment ce n'est valable que pour les assujettis à la TVA.

    Jacques.
     
  5. johnny-57
    johnny-57 WRInaute occasionnel
    Inscrit:
    20 Avril 2007
    Messages:
    292
    J'aime reçus:
    0
    Ben il faut que je puisse vérifier si le siren correspond à une entreprise enregistré mais aussi en activité, donc si le siren est cohérent mathématiquement ça ne signifie pas que l'entreprise exerce encore et du coup ça me dérange. Il faut que je sois certain que l'entreprise existe et est en activité avant de bloquer le compte.
    Et concernant la TVA, effectivement, le problème c'est que tous les pro ne sont pas forcement assujetti donc ça m'aidera pas non plus.
     
  6. bproductiv
    bproductiv WRInaute accro
    Inscrit:
    27 Décembre 2004
    Messages:
    3 705
    J'aime reçus:
    0
    As-tu vérifier au niveau des webservices comme le signale jcaron, ca doit certainement exister.
     
  7. johnny-57
    johnny-57 WRInaute occasionnel
    Inscrit:
    20 Avril 2007
    Messages:
    292
    J'aime reçus:
    0
    Ben j'ai fais une recherche mais je n'ai rien trouvé de spécial. Comme dit, les sociétés privés qui diffuse ce genre d'info sont souvent en retard de plusieurs mois donc des entreprises fraichement créées vont se retrouver bloqué et d'autre vont continuer à avoir accès alors qu'elle sont en liquidation judiciaire.
    C'est pour ça que du coup on veut laisser tomber manageo pour essayer de faire ça avec l'insee.
     
  8. bproductiv
    bproductiv WRInaute accro
    Inscrit:
    27 Décembre 2004
    Messages:
    3 705
    J'aime reçus:
    0
  9. johnny-57
    johnny-57 WRInaute occasionnel
    Inscrit:
    20 Avril 2007
    Messages:
    292
    J'aime reçus:
    0
    Je n'aspire rien, je consulte, j'ai une entreprise qui s'inscrit comme cliente je vérifie son inscription c'est tout. Je ne vais pas chercher et stocker d'infos sur la société, je les ai déjà. Je pense que ses conditions générales servent pour ceux qui veulent faire de l'envoi de pub sur les nouveaux inscrits ou pour les sociétés privées comme manageo, societe.com etc... qui en font leur outil de travail ce qui est loin d'être mon cas.
     
  10. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 361
    J'aime reçus:
    2
    La meilleure chose serait sans doute de prendre contact avec eux en leur expliquant ton problème non ? Tu ne dois pas être le seul ^^
     
  11. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 417
    J'aime reçus:
    0
    Ne peux-tu pas faire la vérification manuelle à postériori ? tu ne dois pas avoir autant de dossiers journaliers
     
  12. johnny-57
    johnny-57 WRInaute occasionnel
    Inscrit:
    20 Avril 2007
    Messages:
    292
    J'aime reçus:
    0
    Je pense avoir trouvé une piste, il faudrait que je gère les sessions dans une autre méthode que j'ai testé qui renvoi la même erreur.

    Le code en post sur la page de destination :

    Code:
    <?php
     
    // on définit l'URL du fichier
    $urlfichier = "http://avis-situation-sirene.insee.fr/avisitu/IdentificationEtabToEntr.do";
     
     
     
    // Définition des champs du formulaire POST
    $donnees = array('siren' => '$siren', 'critere' => 'A' );
     
     
     
    // Définition de la fonction d'encodage des headers
    function http_build_headers( $headers ) {
     
           $headers_brut = '';
     
           foreach( $headers as $nom => $valeur ) {
                   $headers_brut .= $nom . ': ' . $valeur . "\r\n";
           }
     
           return $headers_brut;
    }
     
    // Création du contenu brut de la requête
    $contenu = http_build_query( $donnees );
     
    // Définition des headers
    $headers = http_build_headers( array(
    'Content-Type' => 'application/x-www-form-urlencoded',
    'Content-Length' => strlen( $contenu) ) );
     
    // Définition du contexte
    $options = array( 'http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) Gecko/20061010 Firefox/2.0',
    'method' => 'POST',
    'content' => $contenu,
    'header' => $headers ) );
     
    // Création du contexte
    $contexte = stream_context_create( $options );
     
    // Envoi du formulaire POST
    $retour = file_get_contents( "$urlfichier", false, $contexte );
     
     
    echo $retour;
     
    ?>
    
    
    J'ai quelque dizaine de vérification par jour pour les nouvelles inscriptions et ensuite une vérification périodique pour vérifier que les entreprises soit toujours en activité.

    J'ai peut être une piste qu'il faut que j'explore, je crois que le site gère les sessions, même si j'attaque directement la bonne url ça bloque peut être, il faudrait que j'arrive à gérer les sessions dans mon script pour voir.
     
  13. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    1
    Bref :

    1 - c'est explicitement interdit par le site
    2 - Qui en plus a mis en place un blocage pour confirmer cette interdiction
    3 - tu persistes a tout simplement vouloir ne pas respecter la volonté du site

    :roll:
     
  14. johnny-57
    johnny-57 WRInaute occasionnel
    Inscrit:
    20 Avril 2007
    Messages:
    292
    J'aime reçus:
    0
    Ils interdisent d'aspirer le contenue du site ce que je ne fais pas. Je me contente de consulter sans rien extraire, j'appel pas ça aspirer.
     
  15. bproductiv
    bproductiv WRInaute accro
    Inscrit:
    27 Décembre 2004
    Messages:
    3 705
    J'aime reçus:
    0
    Ok ce n'est pas l'aspiration à proprement parler.
    MAIS tu te sers de leur base (en consultation on l'a bien compris) en automatique et c'est là qu'est la différence avec la consultation autorisée, c'est à dire à la mano.
    pour moi tu es clairement en violation avec leur règles, mais comme le dit Marie-aude le mieux est peut être de les contacter directement, à moins que tu n'ai peur de leur réponse..
     
  16. johnny-57
    johnny-57 WRInaute occasionnel
    Inscrit:
    20 Avril 2007
    Messages:
    292
    J'aime reçus:
    0
    Non, au pire ils ne peuvent que dire non.
    Dans ce cas on restera sur la solution actuelle.
     
  17. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    1
    Heu ote moi d'un doute :

    aspirer c'est bien : lire de façon automatisée le contenu d'une page, et utiliser tout ou partie de cette page pour un autre usage que la consultation en ligne non (dans ton cas valider une info) ?

    :roll:
     
  18. johnny-57
    johnny-57 WRInaute occasionnel
    Inscrit:
    20 Avril 2007
    Messages:
    292
    J'aime reçus:
    0
    Non, aspirer ce n'est pas lire, aspirer c'est avaler des infos et les stocker.

    L'insee dit :

    La propriété intellectuelle n'interdit pas de lire un livre, elle interdit juste de le dupliquer sans l'autorisation de l'auteur, là c'est pareil.
    On interdit pas de lire le contenue de leur base seulement de le copier.
    Je ne fais que lire une information, de manière automatique soit, mais uniquement lire sans conserver quelque information que ce soit. Je ne suis pas qu'un développeur de site web, j'exerce des fonctions de directions depuis 14 ans et je fais du droits depuis tout aussi longtemps, je sais interpréter un texte quand j'en lis un et ici le texte n'interdit pas la consultation mais simplement la duplication de la base puisque l'insee commercialise sa base.
    De toute façon je leur ai envoyé un email leur exposant clairement mon besoin on verra bien ce qu'ils vont me répondre.

    Pour refaire une image, quand tu passe l'aspirateur chez toi il ne se contente pas de regarder la saleté au sol, il l'avale, sur le web c'est pareil ;)
     
  19. bproductiv
    bproductiv WRInaute accro
    Inscrit:
    27 Décembre 2004
    Messages:
    3 705
    J'aime reçus:
    0
    Tiens nous au courant de leur réponse et l'éventuelle solution qu'il te propose.
     
  20. johnny-57
    johnny-57 WRInaute occasionnel
    Inscrit:
    20 Avril 2007
    Messages:
    292
    J'aime reçus:
    0
    Oui biensurs
     
Chargement...
Similar Threads - récupérer contenue web Forum Date
Search Console Sitemaps non indéxés ""Impossible de recuperer le sitemap" Crawl et indexation Google, sitemaps 23 Juillet 2020
Récupérer backlinks vers liens morts : fausse bonne idée ? Netlinking, backlinks, liens et redirections 6 Avril 2020
Récupérer le contenu d'une vidéo youtube Le café de WebRankInfo 23 Mars 2020
Comment récupérer un compte insta ouvert par un cybersquatteur ? Autres réseaux sociaux 29 Janvier 2020
comment récupérer mon positionnement Problèmes de référencement spécifiques à vos sites 5 Janvier 2020
Attendre des années avant de récupérer l'argent amassé sur adsense AdSense 23 Novembre 2019
Comment récupérer variable dynamique pour GTM ? Google Analytics 30 Septembre 2019
SELECT COUNT avec PDO et récupérer le résultat Développement d'un site Web ou d'une appli mobile 27 Mai 2019
récupérer id en php sans lien Développement d'un site Web ou d'une appli mobile 25 Avril 2019
Récupérer events via API google analytics Google Analytics 6 Avril 2019