récuperer automatiquement des noms de domaines

Nouveau WRInaute
Bonjour,

je suis entrain de developper un moteur de recherche et j'ai voulu developper une technique qui recupere des urls ou des noms de domaines automatiquement à partir du net ...

avez vous des idées ?

Merci d'avance..
Cordialment...
 
WRInaute discret
hum ? En gros t'as un TP d'info :p

A mon avis, il faut que tu fasses un spider. Le spider va partir d'une 20 aine de sites et parcourir tous les liens.

C'est comme ça que tu récupéres les noms de domaines dans chaque lien tu extrait le contenu de la balise href...

Ce contenu extrait ta base de sites s'est agrandit et tu peux recommencer avec les nouveaux. ect... jusqu'à ne plus avoir de place sur ton disque dur :)
 
WRInaute accro
tu lui donne les gros sites de départ, tu fais une fonction qui recupere tous les liens sortants d une page, et roulez jeunesse
 
WRInaute discret
Je crois que c'est assez basique surtout pour un moteur de recherche, si tu veux en devlloper un c'est pas gagné sans connaitre ca c'est pas gagné...
 
Nouveau WRInaute
Merci pour vos réponse mais j ai une idée qui est trop manuelle , j ai utilisé Xenu et je lui est passé alexa.com mais la solution est trés manuelle , je voudrais une technique automatique
 
Nouveau WRInaute
en fait mon moteur est à base de nutch si vous le connaissez et ce dernier on le passe un fichier urls.txt qui contient des urls ou des noms de domaines et son crawl fetch ces urls et les indexe mais le sousci mainteent est comment edvelopper qqchose d'automatique pour remplir ce fichier urls.txt
 
WRInaute discret
Ha oui Nutch... C'est une belle initiative :) Tu veux faire un moteur pour ?

Sinon la méthode on te l'as donnée : tu extrais tous les textes des arguments href dans les balises <a> qui commencent par http.

C'est l'ALGO ou méthode automatique de résolution automatique du probléme.

Bref maintenat c'est à toi de mettre le code. Bon courage !
 
WRInaute discret
bah partir d'Alexa n'est pas le bon choix ou une 20 aines de gros sites et portails africains spareil

En fait tu prend l'algo que l'on t'as donné et tu ajoutes une restriction :
- Ne récupérer que les url qui ont une extension d'un pays africain.

Genre : un site en .fr est français donc ne doit pas être enregistré.
 
WRInaute discret
Dans ce cas c'est un site canadien... Ensuite y a des balises de langues.

Ou tu peux mettre une détection des mots les plus récurrents du français...
 
WRInaute accro
mathlouthi a dit:
non c pas africains ,

mon sousci est developper un script ou utliser une api qui scrolle des websites du net.

scrolle ? je pense que tu voulais dire crawler..

pour ton moteur :
basiquement tu vas chercher les liens d'une page et tu les suis.. pas compliquer ca, c'est quand on commence a classer que ca se complique ^^

ce code va chercher les liens d'une page: ^^
Code:
$masque = '#a href="(.*?)"#i';
preg_match_all($masque,$la_page_a_crwaler,$matches,PREG_SET_ORDER);
// le resultat se trouve dans le tableau $matches
 
Nouveau WRInaute
par exemple je débuter par alexa.com

preg_match-all($masque,"www.alexa.com",$PREG_SET_ORDER)

c ca ? et je parcours le tableau $masque ou ???
 
WRInaute accro
mathlouthi a dit:
par exemple je débuter par alexa.com

preg_match-all($masque,"www.alexa.com",$PREG_SET_ORDER)

c ca ? et je parcours le tableau $masque ou ???

fait simple:

Code:
<?php
$page_source = "http://www.tonsite.com"; 
$fp=@fopen($page_source,"r"); 
if($fp)  { 
  while(!feof($fp))  { 
  $chaine .= fgets($fp,1024); 
  } 
  } 

$masque = '#href="(.*?)"#i'; 
preg_match_all("$masque",$chaine,$out,PREG_SET_ORDER); 

print_r($out);
?>
 
WRInaute impliqué
mathlouthi a dit:
par exemple je débuter par alexa.com

preg_match-all($masque,"www.alexa.com",$PREG_SET_ORDER)

c ca ? et je parcours le tableau $masque ou ???

Non mais il faut un minimum de capacité technique aussi... :wink:
 
Discussions similaires
Haut