récuperer automatiquement des noms de domaines

mathlouthi · 11 Septembre 2007

Bonjour,

je suis entrain de developper un moteur de recherche et j'ai voulu developper une technique qui recupere des urls ou des noms de domaines automatiquement à partir du net ...

avez vous des idées ?

Merci d'avance..
Cordialment...

boutdepapier · 11 Septembre 2007

hum ? En gros t'as un TP d'info

A mon avis, il faut que tu fasses un spider. Le spider va partir d'une 20 aine de sites et parcourir tous les liens.

C'est comme ça que tu récupéres les noms de domaines dans chaque lien tu extrait le contenu de la balise href...

Ce contenu extrait ta base de sites s'est agrandit et tu peux recommencer avec les nouveaux. ect... jusqu'à ne plus avoir de place sur ton disque dur

e-kiwi · 11 Septembre 2007

tu lui donne les gros sites de départ, tu fais une fonction qui recupere tous les liens sortants d une page, et roulez jeunesse

paolo20110 · 11 Septembre 2007

Je crois que c'est assez basique surtout pour un moteur de recherche, si tu veux en devlloper un c'est pas gagné sans connaitre ca c'est pas gagné...

mathlouthi · 11 Septembre 2007

Merci pour vos réponse mais j ai une idée qui est trop manuelle , j ai utilisé Xenu et je lui est passé alexa.com mais la solution est trés manuelle , je voudrais une technique automatique

mathlouthi · 11 Septembre 2007

en fait mon moteur est à base de nutch si vous le connaissez et ce dernier on le passe un fichier urls.txt qui contient des urls ou des noms de domaines et son crawl fetch ces urls et les indexe mais le sousci mainteent est comment edvelopper qqchose d'automatique pour remplir ce fichier urls.txt

boutdepapier · 11 Septembre 2007

Ha oui Nutch... C'est une belle initiative

Tu veux faire un moteur pour ?

Sinon la méthode on te l'as donnée : tu extrais tous les textes des arguments href dans les balises <a> qui commencent par http.

C'est l'ALGO ou méthode automatique de résolution automatique du probléme.

Bref maintenat c'est à toi de mettre le code. Bon courage !

paolo20110 · 11 Septembre 2007

Pour scroller les sites africains depuis le repertoire d'alexa...
cf ces 2 precedents topics...

boutdepapier · 11 Septembre 2007

bah partir d'Alexa n'est pas le bon choix ou une 20 aines de gros sites et portails africains spareil

En fait tu prend l'algo que l'on t'as donné et tu ajoutes une restriction :
- Ne récupérer que les url qui ont une extension d'un pays africain.

Genre : un site en .fr est français donc ne doit pas être enregistré.

mathlouthi · 11 Septembre 2007

non c pas africains ,

mon sousci est developper un script ou utliser une api qui scrolle des websites du net.

mathlouthi · 11 Septembre 2007

c quel que chose comme urlsextractor puis passer les urls extracté pour l'algo pour les traiter et ...

mathlouthi · 11 Septembre 2007

pour le extension des sites on peut avoir un sites farncais mais n'est pas .fr ca ca ????????

boutdepapier · 11 Septembre 2007

Dans ce cas c'est un site canadien... Ensuite y a des balises de langues.

Ou tu peux mettre une détection des mots les plus récurrents du français...

KOogar · 11 Septembre 2007

mathlouthi a dit:
non c pas africains ,

mon sousci est developper un script ou utliser une api qui scrolle des websites du net.

scrolle ? je pense que tu voulais dire crawler..

pour ton moteur :
basiquement tu vas chercher les liens d'une page et tu les suis.. pas compliquer ca, c'est quand on commence a classer que ca se complique ^^

ce code va chercher les liens d'une page: ^^

Code:

$masque = '#a href="(.*?)"#i';
preg_match_all($masque,$la_page_a_crwaler,$matches,PREG_SET_ORDER);
// le resultat se trouve dans le tableau $matches

mathlouthi · 11 Septembre 2007

Merci KOogar,
mais comment je vais executer ce code ?

mathlouthi · 11 Septembre 2007

par exemple je débuter par alexa.com

preg_match-all($masque,"www.alexa.com",$PREG_SET_ORDER)

c ca ? et je parcours le tableau $masque ou ???

KOogar · 11 Septembre 2007

mathlouthi a dit:
par exemple je débuter par alexa.com

preg_match-all($masque,"www.alexa.com",$PREG_SET_ORDER)

c ca ? et je parcours le tableau $masque ou ???

fait simple:

Code:

<?php
$page_source = "http://www.tonsite.com"; 
$fp=@fopen($page_source,"r"); 
if($fp)  { 
  while(!feof($fp))  { 
  $chaine .= fgets($fp,1024); 
  } 
  } 

$masque = '#href="(.*?)"#i'; 
preg_match_all("$masque",$chaine,$out,PREG_SET_ORDER); 

print_r($out);
?>

Tilt · 11 Septembre 2007

mathlouthi a dit:
par exemple je débuter par alexa.com

preg_match-all($masque,"www.alexa.com",$PREG_SET_ORDER)

c ca ? et je parcours le tableau $masque ou ???

Non mais il faut un minimum de capacité technique aussi... :wink:

boutdepapier · 11 Septembre 2007

Ou alors mathlouthi il te reste rentacoder.com