Creation d'un bot analyseur

Discussion dans 'Administration d'un site Web' créé par scores, 6 Juillet 2005.

  1. scores
    scores WRInaute occasionnel
    Inscrit:
    24 Novembre 2002
    Messages:
    437
    J'aime reçus:
    0
    Salut,
    pour être clair,
    je cherche à créer un bot, qui a partir d'une liste de liens externes dans ma table, va analyser le contenu de chaque lien (sites externe au mien).

    Le bot aurait la fonction de detecter un type de phrase du genre "ce produit n'existe plus".

    si le bot detecte cette phrase, alors il effecerait la ligne correspondante dans ma table.

    Je suis completement ignard dans le domaine des bots. Si quelqu'un a une piste de départ à me fournir, un script approchant (php si possible), ca serait coool !

    merci
     
  2. loletech
    loletech WRInaute discret
    Inscrit:
    3 Avril 2005
    Messages:
    100
    J'aime reçus:
    0
    Un très bon livre sur le sujet chez O'Reilly : "Spidering Hacks".
     
  3. mowmow
    mowmow WRInaute impliqué
    Inscrit:
    3 Novembre 2004
    Messages:
    865
    J'aime reçus:
    0
    Tu analyses d'abord le code html des pages à analyser, t'essaies de trouver un truc qu'il n'y a que sur les pages où le produit n'existe plus.
    Après tu fais un file_get_contents et avec des regexp tu analyses le code. Si ca renvoie true > tu garde, si ca renvoie false > tu jette ;)
     
  4. scores
    scores WRInaute occasionnel
    Inscrit:
    24 Novembre 2002
    Messages:
    437
    J'aime reçus:
    0
    salut merci loletech pour ta référence.

    merci mowmow, ouais la démarche je l'ai bien identifié c'est bien cela, mais ce n'est pas la démarche le problème, c'est le moyen de le faire.

    Surtout "Tu analyses d'abord le code html des pages à analyser",
    c'est surtout cela, je ne sais pas comment faire
     
  5. mowmow
    mowmow WRInaute impliqué
    Inscrit:
    3 Novembre 2004
    Messages:
    865
    J'aime reçus:
    0
    Affichage > Source :mrgreen:

    Tu dois répérer un certains enchaînement de code html, pour répérer l'endroit précis. Mais bon c'est pas obligé, après tu peux juste vérifier l'existance de la chîne "ce produit n'existe plus" pour être fixé.
     
  6. scores
    scores WRInaute occasionnel
    Inscrit:
    24 Novembre 2002
    Messages:
    437
    J'aime reçus:
    0
    Excellent merci mowmow
    j'ai pu trouver des pistes qui m'a amener à ce script

    <?

    $selection="requete pour lister les produits'";
    $resultdeux = mysql_db_query($free_login,$selection);
    WHILE ($post2=mysql_fetch_array($resultdeux))
    {
    $fp = fopen("". $post2["url"] ."", "r"); // page html sur internet
    $chaine = 'phrase à detecter'; // chaine à rechercher (@, \.fr, \.com, ...)
    $ligne=0;
    while (!feof($fp))
    { $page = fgets($fp, 4096);
    $ligne = $ligne+1;
    if ($news = eregi($chaine, $page, $regs)) {
    echo "PRODUIT n° ". $post2["clef"] ."<br>";
    }
    }

    }

    ?>
     
  7. scores
    scores WRInaute occasionnel
    Inscrit:
    24 Novembre 2002
    Messages:
    437
    J'aime reçus:
    0
    Malheuresement c'est un peu lourdo comme méthode,
    ya pas moyen d'alleger le chargement de la page cible (genre ne telecharger que le numero de la ligne identifiée contenant la phrase cherchée ?)
     
  8. ecocentric
    ecocentric WRInaute accro
    Inscrit:
    10 Février 2004
    Messages:
    2 653
    J'aime reçus:
    0
    Non, il faut charder par file_get_contents puis analyser.
     
  9. scores
    scores WRInaute occasionnel
    Inscrit:
    24 Novembre 2002
    Messages:
    437
    J'aime reçus:
    0
    j'ai remplacé

    $fp = fopen("". $post2["url"] ."", "r");
    $chaine = 'phrase à detecter';
    if ($news = eregi($chaine, $page, $regs)) {


    par

    $fp = file_get_contents("". $post2["url"] .""); // page html sur internet
    $chaine = 'phrase à detecter';
    if ($news = eregi($chaine,$fp))

    ca marche, mais ca ne change strcitement rien à la lourdeur du truc. J'ai cherché voir si y'avait pas des délimiteurs pour file_get_contents, mais j'arrive pas à m'en servir
     
  10. mowmow
    mowmow WRInaute impliqué
    Inscrit:
    3 Novembre 2004
    Messages:
    865
    J'aime reçus:
    0
  11. aladdin
    aladdin WRInaute passionné
    Inscrit:
    29 Avril 2005
    Messages:
    1 235
    J'aime reçus:
    0
    renseigne toi sur la librairie curl tu peut l'utiliser si elle est installer comme extention de php elle permet de simuler un navigateur ou un robot ...

    sous PHP les fonction de cette librairie commancent toutes par curl_ : curl_setopt, curl_exec, curl_close
     
Chargement...
Similar Threads - Creation bot analyseur Forum Date
Création d'un ROBOT crawler Débuter en référencement 12 Mars 2010
aide pour la creation d'un fichier robot.txt Débuter en référencement 17 Juillet 2005
Création d'un bot Le café de WebRankInfo 13 Juillet 2003
WordPress Création d'un nouveau site Développement d'un site Web ou d'une appli mobile 2 Mai 2022
Création de site marchand / Avis WIX Référencement Google 17 Novembre 2021
Crawl et indexation Landing Page (site en création) Débuter en référencement 25 Mars 2021
Autres solution que Wordpress pour création de site ? Développement d'un site Web ou d'une appli mobile 13 Janvier 2021
Création d'une vue dans Google Analytics GA4 Google Analytics 10 Novembre 2020
Création d'une rubrique communiqués sur mon site Développement d'un site Web ou d'une appli mobile 19 Août 2020
Xenforo est-il un outil de création de forum adapté aux petites structures Demandes d'avis et de conseils sur vos sites 20 Avril 2020
Création de catégories et SEO ? Débuter en référencement 19 Avril 2020
Création d'un nouveau site dans un site déjà existant Débuter en référencement 16 Avril 2020
Création d'une vue Google Analytics sans sous-répertoires Google Analytics 5 Mars 2020
Création de sous domaine utile ? Noms de domaine et référencement 23 Janvier 2020
Création URL de redirection pour Référencement google my business Débuter en référencement 7 Décembre 2019
WordPress pb de création d'une URL différente à chaque révision d'article Problèmes de référencement spécifiques à vos sites 29 Octobre 2019
Création page dédiée sur un site client avec lien backlink Netlinking, backlinks, liens et redirections 9 Octobre 2019
Création statut auto entrepreneur et site e-commerce Droit du web (juridique, fiscalité...) 30 Septembre 2019
Création d'un site d'annonces Immobilières Développement d'un site Web ou d'une appli mobile 23 Août 2019
Questionnaire mémoire : intérêt de la création de contenu dans la confiance et la fidélité en ligne Le café de WebRankInfo 6 Mai 2019