|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
mathlouthi Nouveau WRInaute
Inscrit le: 28 Aoû 2007 Messages: 49
|
Posté le : Mer Sep 05, 2007 9:39 Sujet du message: get sites actif |
|
|
Bonjour,
tout d'abord je suis désolé si ne m'exprime bien .
je suis entrein de tester un moteur de recherche (nutch) et si vous connaissez ce dernier dot avoir un fichier urls.txt qui contient un ensemble d'urls qu'on les passe au crawl pour les indexer , mon sousci est comment avoir le maximum d'urls possible via un script ou une stratégie qq je sais pas mais un maximum de sites pour les passer au crawl .....
merci eaucoup pour vos lumieres .
Cordialemnt..
Lassaad MATHLOUTHI |
|
| |
|
 |
nickargall WRInaute accro

Inscrit le: 13 Juin 2005 Messages: 3275 Localisation: Exilé au Groland à cause de Joe Dalton
|
Posté le : Mer Sep 05, 2007 10:20 Sujet du message: get sites actif |
|
|
Bonjour
Peut etre que le logiciel Xenu pourra t'aider? Il va lister toutes les URL d'un site et te sortir un rapport HTML avec beaucoup d'informations, notamment "list of valid URLS you can submit to a search engine"... ou quelquechose comme ça.
Tu peux ensuite copier cette liste et la recoller dans un fichier texte.
Le logiciel est gratuit, tu peux le télécharger sur cette page
http://home.snafu.de/tilman/xenulink.html |
|
| |
|
 |
mathlouthi Nouveau WRInaute
Inscrit le: 28 Aoû 2007 Messages: 49
|
Posté le : Mer Sep 05, 2007 14:36 Sujet du message: get sites actif |
|
|
merci beaucoup pour votre reponse mais j ai pas compris qu est ce que tu vise par "list of valid urls you can submit to a search engine
" |
|
| |
|
 |
nickargall WRInaute accro

Inscrit le: 13 Juin 2005 Messages: 3275 Localisation: Exilé au Groland à cause de Joe Dalton
|
Posté le : Mer Sep 05, 2007 14:44 Sujet du message: get sites actif |
|
|
| Lorsque Xenu a terminé de visiter ton site, il te propose d'éditer un rapport HTML. Sur ce rapport, tu as une liste de tous les URL qu'il a réussi à trouver. Tu peux alors les copier dans un fichier texte .txt. |
|
| |
|
 |
mathlouthi Nouveau WRInaute
Inscrit le: 28 Aoû 2007 Messages: 49
|
Posté le : Lun Sep 10, 2007 9:35 Sujet du message: get sites actif |
|
|
Bonjour nichargall ,
Xenu a terminé le parcours du sites (alexa) mais il n a pas demander de faire un rapport il ya justes des urls vert et rouges mais ils ne sont pas des domaines ils sont des urls et la plupart sont de la forme www.alexa.com/blablabla mais pour mon boulot mon besoins est comment je peux avoir les domaines de l'afirque en fait je suis entrain de developper un moteur de recherche et je veux avoir les domaines de l'afrique et que les domaine de l'afrique pour les indexer , je veux que lorsqu je tape un mot dans mon moteur il n'apporte que des sites afriquain. c ca l'objectif et je vous remercie beaucoups d'avance si vous avez une idée ou un script de qui fait ce genre de truc ..
Cordialemnt...
Lassaad MATHLOUTHI |
|
| |
|
 |
mathlouthi Nouveau WRInaute
Inscrit le: 28 Aoû 2007 Messages: 49
|
Posté le : Lun Sep 10, 2007 12:23 Sujet du message: get sites actif |
|
|
rebonjour ,
j ai repeté la procedure de xenu
mais lors du reporting j arrive pas à enregestrer le fichier index.html dans le filezellaserver il ya un / qui est ajouté au debut du repertoire et je sais pas d'ou il vient |
|
| |
|
 |
nickargall WRInaute accro

Inscrit le: 13 Juin 2005 Messages: 3275 Localisation: Exilé au Groland à cause de Joe Dalton
|
Posté le : Lun Sep 10, 2007 12:53 Sujet du message: get sites actif |
|
|
| Lorsque le rapport HTML s'affiche dans ton navigateur, tu peux copier la liste d'URL donnée dans un fichier texte sans souci .. |
|
| |
|
 |
mathlouthi Nouveau WRInaute
Inscrit le: 28 Aoû 2007 Messages: 49
|
Posté le : Lun Sep 10, 2007 13:59 Sujet du message: get sites actif |
|
|
| merci beaucoup pour votre réponse mais il n ya aucun rapport qui s'affiche , en fait lorsque Xenu termine sa procédure il demande reporting je clique sur oui puis il ya un formulaire pour un compte ftp je met 127.0.0.1 puis nom d'utilisatur puis le mot de pass puis le dossier mais il n ya rien dans le dossier ... |
|
| |
|
 |
nickargall WRInaute accro

Inscrit le: 13 Juin 2005 Messages: 3275 Localisation: Exilé au Groland à cause de Joe Dalton
|
Posté le : Lun Sep 10, 2007 14:01 Sujet du message: get sites actif |
|
|
| une question : de quoi as-tu besoin ? Des URL des pages du site Alexa ? d'adresses de sites africains ? ...au juste .. |
|
| |
|
 |
mathlouthi Nouveau WRInaute
Inscrit le: 28 Aoû 2007 Messages: 49
|
Posté le : Lun Sep 10, 2007 14:06 Sujet du message: get sites actif |
|
|
| exactement je voudrais tous les domaines des sites afriquain d'ou j ai acceder à l'alexa et j ai cherché les repertoires de l'afrique .. mais lorsque j met l'url de l'alaxa ou http://www.lesannuaires.com/annuaire-afrique.html dans le xenu comme j ai vous expliqué ja i pas pu avoir le rapport html |
|
| |
|
 |
mathlouthi Nouveau WRInaute
Inscrit le: 28 Aoû 2007 Messages: 49
|
Posté le : Lun Sep 10, 2007 14:13 Sujet du message: get sites actif |
|
|
mon skype ytlassaad
mon mail ing.lassaad@hotmail.com |
|
| |
|
 |
nickargall WRInaute accro

Inscrit le: 13 Juin 2005 Messages: 3275 Localisation: Exilé au Groland à cause de Joe Dalton
|
Posté le : Lun Sep 10, 2007 14:15 Sujet du message: get sites actif |
|
|
ah ben non alors, Xenu va te donner toutes les URL du site Alexa.com et des liens externes mélangés.
Sinon pour avoir un rapport Xenu, il faut cliquer sur Cancel quand il te demande le ftp. Il ouvrira alors une page HTML avec le rapport dedans. |
|
| |
|
 |
mathlouthi Nouveau WRInaute
Inscrit le: 28 Aoû 2007 Messages: 49
|
Posté le : Lun Sep 10, 2007 14:23 Sujet du message: get sites actif |
|
|
ok je vais réssayer ,
à propos que les sites africains est ce que vous avez une idée ? surtout je vais developper un script qui va faire ce truc mon objectif est de rendre cette fonctionnalités automatique ?? |
|
| |
|
 |
mathlouthi Nouveau WRInaute
Inscrit le: 28 Aoû 2007 Messages: 49
|
Posté le : Lun Sep 10, 2007 14:38 Sujet du message: get sites actif |
|
|
| c ad je veux alimenter la base de sites à indexer dans mon moteur de recherche qu'avec des sites africains ... |
|
| |
|
 |
nickargall WRInaute accro

Inscrit le: 13 Juin 2005 Messages: 3275 Localisation: Exilé au Groland à cause de Joe Dalton
|
Posté le : Lun Sep 10, 2007 14:42 Sujet du message: get sites actif |
|
|
| bon ben désolé, pas d'idée ... |
|
| |
|
 |
| |
|
|