get sites actif

Nouveau WRInaute
Bonjour,

tout d'abord je suis désolé si ne m'exprime bien .

je suis entrein de tester un moteur de recherche (nutch) et si vous connaissez ce dernier dot avoir un fichier urls.txt qui contient un ensemble d'urls qu'on les passe au crawl pour les indexer , mon sousci est comment avoir le maximum d'urls possible via un script ou une stratégie qq je sais pas mais un maximum de sites pour les passer au crawl .....

merci eaucoup pour vos lumieres .

Cordialemnt..
Lassaad MATHLOUTHI
 
WRInaute accro
Bonjour

Peut etre que le logiciel Xenu pourra t'aider? Il va lister toutes les URL d'un site et te sortir un rapport HTML avec beaucoup d'informations, notamment "list of valid URLS you can submit to a search engine"... ou quelquechose comme ça.

Tu peux ensuite copier cette liste et la recoller dans un fichier texte.

Le logiciel est gratuit, tu peux le télécharger sur cette page
http://home.snafu.de/tilman/xenulink.html
 
Nouveau WRInaute
merci beaucoup pour votre reponse mais j ai pas compris qu est ce que tu vise par "list of valid urls you can submit to a search engine
"
 
WRInaute accro
Lorsque Xenu a terminé de visiter ton site, il te propose d'éditer un rapport HTML. Sur ce rapport, tu as une liste de tous les URL qu'il a réussi à trouver. Tu peux alors les copier dans un fichier texte .txt.
 
Nouveau WRInaute
Bonjour nichargall ,

Xenu a terminé le parcours du sites (alexa) mais il n a pas demander de faire un rapport il ya justes des urls vert et rouges mais ils ne sont pas des domaines ils sont des urls et la plupart sont de la forme www.alexa.com/blablabla mais pour mon boulot mon besoins est comment je peux avoir les domaines de l'afirque en fait je suis entrain de developper un moteur de recherche et je veux avoir les domaines de l'afrique et que les domaine de l'afrique pour les indexer , je veux que lorsqu je tape un mot dans mon moteur il n'apporte que des sites afriquain. c ca l'objectif et je vous remercie beaucoups d'avance si vous avez une idée ou un script de qui fait ce genre de truc ..

Cordialemnt...
Lassaad MATHLOUTHI
 
Nouveau WRInaute
rebonjour ,

j ai repeté la procedure de xenu
mais lors du reporting j arrive pas à enregestrer le fichier index.html dans le filezellaserver il ya un / qui est ajouté au debut du repertoire et je sais pas d'ou il vient
 
WRInaute accro
Lorsque le rapport HTML s'affiche dans ton navigateur, tu peux copier la liste d'URL donnée dans un fichier texte sans souci ..
 
Nouveau WRInaute
merci beaucoup pour votre réponse mais il n ya aucun rapport qui s'affiche , en fait lorsque Xenu termine sa procédure il demande reporting je clique sur oui puis il ya un formulaire pour un compte ftp je met 127.0.0.1 puis nom d'utilisatur puis le mot de pass puis le dossier mais il n ya rien dans le dossier ...
 
WRInaute accro
ah ben non alors, Xenu va te donner toutes les URL du site Alexa.com et des liens externes mélangés.

Sinon pour avoir un rapport Xenu, il faut cliquer sur Cancel quand il te demande le ftp. Il ouvrira alors une page HTML avec le rapport dedans.
 
Nouveau WRInaute
ok je vais réssayer ,

à propos que les sites africains est ce que vous avez une idée ? surtout je vais developper un script qui va faire ce truc mon objectif est de rendre cette fonctionnalités automatique ??
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut