Petit crawler en C/C++/Java/Python

ecocentric · 23 Septembre 2004

Bonjour,
Je suis à la recherche d'un logiciel, éventuellement basique, capable de récupérer des pages HTML en grand nombre, voire de créer un index. Il pourrait être développé en C, C++, Java ou Python. Il doit être Open Source (possibilité de l'intégrer dans un projet plus grand). Quelqu'un a-t-il une idée ?
RV.

herveG · 23 Septembre 2004

je cherche aussi....!! merci pour toute info !!

rebirth · 23 Septembre 2004

De meme en elargissant meme au Perl...voire PHP....

J'ai besoin d'un outil capable de recuperer les meta : title et keywords...
J'ai quelques idees pour optimiser mes pages..

Enfin si ca existe pas vraiment je le ferai en open, mais j'ai plein de projets en meme temps a finir

Ca me plairait plus de trouver un truc open, prendre ce qu'il faut et hop !

jerome347 · 23 Septembre 2004

rebirth a dit:
voire PHP....
J'ai besoin d'un outil capable de recuperer les meta : title et keywords...

En php il y a la fonction get_meta_tags.

et pour récupérer le title, un petit parser de ce genre suffit :

Code:

function GetBetween($file, $debut, $fin)
	{
	$file = file($file);
	$retour = implode('', $file);
	$retour = explode($debut, $retour);
	$retour = explode($fin, $retour['1']);
	return $retour['0'];
	}

shrom · 23 Septembre 2004

Tu as une liste des moteurs de recherche open source ici:
http://www.searchtools.com/tools/tools-opensource.html

Dans la liste, je connais surtout nutch ( devait servir de base à mozdex, mais mozdex semble définitivement fermé ) qui a un indexer assez puissant et mnoGoSearch qui permet d'indexer les bases de données.

ecocentric · 23 Septembre 2004

rebirth a dit:
De meme en elargissant meme au Perl...voire PHP....

J'ai besoin d'un outil capable de recuperer les meta : title et keywords...
J'ai quelques idees pour optimiser mes pages..

Enfin si ca existe pas vraiment je le ferai en open, mais j'ai plein de projets en meme temps a finir
Ca me plairait plus de trouver un truc open, prendre ce qu'il faut et hop !

Je m'amuse un peu avec ça : http://seo.ecocentric.be/meta.php . Eventuellement, contacte-moi en MP pour le code.

ecocentric · 23 Septembre 2004

jerome347 a dit:
En php il y a la fonction get_meta_tags.

Intéressant. Je ne connaissais pas.

ecocentric · 23 Septembre 2004

shrom a dit:
Dans la liste, je connais surtout nutch ( devait servir de base à mozdex, mais mozdex semble définitivement fermé ) qui a un indexer assez puissant et mnoGoSearch qui permet d'indexer les bases de données.

Nutch est déjà un gros logiciel. Je cherche plutôt quelque-chose de très simple, compact au niveau de code, très facilement installable. L'idée n'est pas de pouvoir concurrencer Google ;-), plutôt de pouvoir traiter en continu quelques centaines de sites, voire quelques milliers, avec une bonne stabilité et une rapidité correcte, et d'appliquer des trairement sur ce qui a été crawlé. .

http://www.searchtools.com/tools/tools-opensource.html

Très bon ![/code]

rebirth · 23 Septembre 2004

Ok merci a tous, pour tout ces liens

Je connaissais pas cette fonction en PHP, enfin de l'autre cote, je m'y suis mis il y a pas trop longtemps....
Ca me change pas trop du C/Perl, mais c'est cool pour le Web...