Petit crawler en C/C++/Java/Python

WRInaute accro
Bonjour,
Je suis à la recherche d'un logiciel, éventuellement basique, capable de récupérer des pages HTML en grand nombre, voire de créer un index. Il pourrait être développé en C, C++, Java ou Python. Il doit être Open Source (possibilité de l'intégrer dans un projet plus grand). Quelqu'un a-t-il une idée ?
RV.
 
WRInaute impliqué
De meme en elargissant meme au Perl...voire PHP....

J'ai besoin d'un outil capable de recuperer les meta : title et keywords...
J'ai quelques idees pour optimiser mes pages..

Enfin si ca existe pas vraiment je le ferai en open, mais j'ai plein de projets en meme temps a finir :(
Ca me plairait plus de trouver un truc open, prendre ce qu'il faut et hop !
 
WRInaute occasionnel
rebirth a dit:
voire PHP....
J'ai besoin d'un outil capable de recuperer les meta : title et keywords...

En php il y a la fonction get_meta_tags.

et pour récupérer le title, un petit parser de ce genre suffit :

Code:
function GetBetween($file, $debut, $fin)
	{
	$file = file($file);
	$retour = implode('', $file);
	$retour = explode($debut, $retour);
	$retour = explode($fin, $retour['1']);
	return $retour['0'];
	}
 
WRInaute accro
rebirth a dit:
De meme en elargissant meme au Perl...voire PHP....

J'ai besoin d'un outil capable de recuperer les meta : title et keywords...
J'ai quelques idees pour optimiser mes pages..

Enfin si ca existe pas vraiment je le ferai en open, mais j'ai plein de projets en meme temps a finir :(
Ca me plairait plus de trouver un truc open, prendre ce qu'il faut et hop !

Je m'amuse un peu avec ça : http://seo.ecocentric.be/meta.php . Eventuellement, contacte-moi en MP pour le code.
 
WRInaute accro
shrom a dit:
Dans la liste, je connais surtout nutch ( devait servir de base à mozdex, mais mozdex semble définitivement fermé ) qui a un indexer assez puissant et mnoGoSearch qui permet d'indexer les bases de données.

Nutch est déjà un gros logiciel. Je cherche plutôt quelque-chose de très simple, compact au niveau de code, très facilement installable. L'idée n'est pas de pouvoir concurrencer Google ;-), plutôt de pouvoir traiter en continu quelques centaines de sites, voire quelques milliers, avec une bonne stabilité et une rapidité correcte, et d'appliquer des trairement sur ce qui a été crawlé. .

http://www.searchtools.com/tools/tools-opensource.html

Très bon ![/code]
 
WRInaute impliqué
Ok merci a tous, pour tout ces liens :D

Je connaissais pas cette fonction en PHP, enfin de l'autre cote, je m'y suis mis il y a pas trop longtemps....
Ca me change pas trop du C/Perl, mais c'est cool pour le Web...
 
Discussions similaires
Haut