récuperer automatiquement des noms de domaines

Discussion dans 'Développement d'un site Web ou d'une appli mobile' créé par mathlouthi, 11 Septembre 2007.

  1. mathlouthi
    mathlouthi Nouveau WRInaute
    Inscrit:
    28 Août 2007
    Messages:
    45
    J'aime reçus:
    0
    Bonjour,

    je suis entrain de developper un moteur de recherche et j'ai voulu developper une technique qui recupere des urls ou des noms de domaines automatiquement à partir du net ...

    avez vous des idées ?

    Merci d'avance..
    Cordialment...
     
  2. boutdepapier
    boutdepapier WRInaute discret
    Inscrit:
    4 Août 2006
    Messages:
    151
    J'aime reçus:
    0
    hum ? En gros t'as un TP d'info :p

    A mon avis, il faut que tu fasses un spider. Le spider va partir d'une 20 aine de sites et parcourir tous les liens.

    C'est comme ça que tu récupéres les noms de domaines dans chaque lien tu extrait le contenu de la balise href...

    Ce contenu extrait ta base de sites s'est agrandit et tu peux recommencer avec les nouveaux. ect... jusqu'à ne plus avoir de place sur ton disque dur :)
     
  3. e-kiwi
    e-kiwi WRInaute accro
    Inscrit:
    23 Décembre 2003
    Messages:
    13 198
    J'aime reçus:
    1
    tu lui donne les gros sites de départ, tu fais une fonction qui recupere tous les liens sortants d une page, et roulez jeunesse
     
  4. paolo20110
    paolo20110 WRInaute discret
    Inscrit:
    4 Mai 2004
    Messages:
    85
    J'aime reçus:
    0
    Je crois que c'est assez basique surtout pour un moteur de recherche, si tu veux en devlloper un c'est pas gagné sans connaitre ca c'est pas gagné...
     
  5. mathlouthi
    mathlouthi Nouveau WRInaute
    Inscrit:
    28 Août 2007
    Messages:
    45
    J'aime reçus:
    0
    Merci pour vos réponse mais j ai une idée qui est trop manuelle , j ai utilisé Xenu et je lui est passé alexa.com mais la solution est trés manuelle , je voudrais une technique automatique
     
  6. mathlouthi
    mathlouthi Nouveau WRInaute
    Inscrit:
    28 Août 2007
    Messages:
    45
    J'aime reçus:
    0
    en fait mon moteur est à base de nutch si vous le connaissez et ce dernier on le passe un fichier urls.txt qui contient des urls ou des noms de domaines et son crawl fetch ces urls et les indexe mais le sousci mainteent est comment edvelopper qqchose d'automatique pour remplir ce fichier urls.txt
     
  7. boutdepapier
    boutdepapier WRInaute discret
    Inscrit:
    4 Août 2006
    Messages:
    151
    J'aime reçus:
    0
    Ha oui Nutch... C'est une belle initiative :) Tu veux faire un moteur pour ?

    Sinon la méthode on te l'as donnée : tu extrais tous les textes des arguments href dans les balises <a> qui commencent par http.

    C'est l'ALGO ou méthode automatique de résolution automatique du probléme.

    Bref maintenat c'est à toi de mettre le code. Bon courage !
     
  8. paolo20110
    paolo20110 WRInaute discret
    Inscrit:
    4 Mai 2004
    Messages:
    85
    J'aime reçus:
    0
    Pour scroller les sites africains depuis le repertoire d'alexa...
    cf ces 2 precedents topics...
     
  9. boutdepapier
    boutdepapier WRInaute discret
    Inscrit:
    4 Août 2006
    Messages:
    151
    J'aime reçus:
    0
    bah partir d'Alexa n'est pas le bon choix ou une 20 aines de gros sites et portails africains spareil

    En fait tu prend l'algo que l'on t'as donné et tu ajoutes une restriction :
    - Ne récupérer que les url qui ont une extension d'un pays africain.

    Genre : un site en .fr est français donc ne doit pas être enregistré.
     
  10. mathlouthi
    mathlouthi Nouveau WRInaute
    Inscrit:
    28 Août 2007
    Messages:
    45
    J'aime reçus:
    0
    non c pas africains ,

    mon sousci est developper un script ou utliser une api qui scrolle des websites du net.
     
  11. mathlouthi
    mathlouthi Nouveau WRInaute
    Inscrit:
    28 Août 2007
    Messages:
    45
    J'aime reçus:
    0
    c quel que chose comme urlsextractor puis passer les urls extracté pour l'algo pour les traiter et ...
     
  12. mathlouthi
    mathlouthi Nouveau WRInaute
    Inscrit:
    28 Août 2007
    Messages:
    45
    J'aime reçus:
    0
    pour le extension des sites on peut avoir un sites farncais mais n'est pas .fr ca ca ????????
     
  13. boutdepapier
    boutdepapier WRInaute discret
    Inscrit:
    4 Août 2006
    Messages:
    151
    J'aime reçus:
    0
    Dans ce cas c'est un site canadien... Ensuite y a des balises de langues.

    Ou tu peux mettre une détection des mots les plus récurrents du français...
     
  14. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 643
    J'aime reçus:
    82
    scrolle ? je pense que tu voulais dire crawler..

    pour ton moteur :
    basiquement tu vas chercher les liens d'une page et tu les suis.. pas compliquer ca, c'est quand on commence a classer que ca se complique ^^

    ce code va chercher les liens d'une page: ^^
    Code:
    $masque = '#a href="(.*?)"#i';
    preg_match_all($masque,$la_page_a_crwaler,$matches,PREG_SET_ORDER);
    // le resultat se trouve dans le tableau $matches 
     
  15. mathlouthi
    mathlouthi Nouveau WRInaute
    Inscrit:
    28 Août 2007
    Messages:
    45
    J'aime reçus:
    0
    Merci KOogar,
    mais comment je vais executer ce code ?
     
  16. mathlouthi
    mathlouthi Nouveau WRInaute
    Inscrit:
    28 Août 2007
    Messages:
    45
    J'aime reçus:
    0
    par exemple je débuter par alexa.com

    preg_match-all($masque,"www.alexa.com",$PREG_SET_ORDER)

    c ca ? et je parcours le tableau $masque ou ???
     
  17. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 643
    J'aime reçus:
    82
    fait simple:

    Code:
    <?php
    $page_source = "http://www.tonsite.com"; 
    [email protected]($page_source,"r"); 
    if($fp)  { 
      while(!feof($fp))  { 
      $chaine .= fgets($fp,1024); 
      } 
      } 
    
    $masque = '#href="(.*?)"#i'; 
    preg_match_all("$masque",$chaine,$out,PREG_SET_ORDER); 
    
    print_r($out);
    ?>
     
  18. Tilt
    Tilt WRInaute impliqué
    Inscrit:
    26 Mars 2005
    Messages:
    752
    J'aime reçus:
    0
    Non mais il faut un minimum de capacité technique aussi... :wink:
     
  19. boutdepapier
    boutdepapier WRInaute discret
    Inscrit:
    4 Août 2006
    Messages:
    151
    J'aime reçus:
    0
    Ou alors mathlouthi il te reste rentacoder.com :p
     
Chargement...
Similar Threads - récuperer automatiquement noms Forum Date
récupérer automatiquement des données depuis excel Développement d'un site Web ou d'une appli mobile 10 Juin 2013
Récupérer automatiquement la latitude et la longitude d'une page Google Maps YouTube, Google Images et Google Maps 30 Novembre 2009
recuperer automatiquement les urls des resultat gg Développement d'un site Web ou d'une appli mobile 8 Février 2008
Récupérer automatiquement les balises métas description Développement d'un site Web ou d'une appli mobile 12 Décembre 2005
Commande site : monsite.com. Comment récupérer les URL dans un fichier ? Crawl et indexation Google, sitemaps 2 Juillet 2022
Récupérer URL destination liste redirection Netlinking, backlinks, liens et redirections 22 Novembre 2021
Récupérer les 10 plus grandes valeurs dans un fichier JSON Développement d'un site Web ou d'une appli mobile 18 Novembre 2021
Js : récupérer un élément dans un array Développement d'un site Web ou d'une appli mobile 23 Octobre 2021
FORMULAIRE FB ADS récupérer les données Facebook 28 Juillet 2021
Récupérer le premier et dernier enregistrement sql Développement d'un site Web ou d'une appli mobile 16 Juillet 2021
Comment récupérer le solde impayé de mon compte Adsense ? AdSense 26 Juin 2021
Search Console Sitemaps non indéxés ""Impossible de recuperer le sitemap" Crawl et indexation Google, sitemaps 23 Juillet 2020
Récupérer backlinks vers liens morts : fausse bonne idée ? Netlinking, backlinks, liens et redirections 6 Avril 2020
Récupérer le contenu d'une vidéo youtube Le café de WebRankInfo 23 Mars 2020
Comment récupérer un compte insta ouvert par un cybersquatteur ? Autres réseaux sociaux 29 Janvier 2020
comment récupérer mon positionnement Problèmes de référencement spécifiques à vos sites 5 Janvier 2020
Attendre des années avant de récupérer l'argent amassé sur adsense AdSense 23 Novembre 2019
Comment récupérer variable dynamique pour GTM ? Google Analytics 30 Septembre 2019
SELECT COUNT avec PDO et récupérer le résultat Développement d'un site Web ou d'une appli mobile 27 Mai 2019
récupérer id en php sans lien Développement d'un site Web ou d'une appli mobile 25 Avril 2019