Bot ou crawler open source çà existe ?

Nouveau WRInaute
Je voudrais indexé les pages de mes sites sur un moteur de recherche hébergé par mes soins. Est-ce qu'il existe des solutions open source pour réaliser celà ? J'ai entendu parlé de aspseek mais d'après ce que j'ai lu il faut installer celà sur une machine or je n'ai pas de machine dédié. Il me faudrait un script php, cgi ou perl qui tourne sur du mutualisé. Je précise que j'ai pas besoin de perf, il y a très peu de nouvelles pages créées par jour sur mes sites.
 
WRInaute accro
Il y a aussi plein d'autres scripts comme "Moteur'ed", que j'ai testé et qui a l'air d'aller pas trop mal.
Si ton site est bien indexé, tu peux aussi passer par l'API de Yahoo!.
 
WRInaute occasionnel
Larbin


Larbin est un web crawler (synonyme de (web) robot, spider, scooter, aspirateur...). Il est dimensionné pour ramener une grande quantité de pages web pour remplir la base de données d'un moteur de recherche. A condition d'avoir un réseau suffisament rapide, Larbin est censé être capable de ramener plus de 100 millions de pages sur un PC classique.

Larbin est juste un crawler. Il ne contient aucun outil pour indexer vos données.

Larbin a été initialement développé pour le projet XYLEME de l'équipe VERSO de l'INRIA. Son but était de récupérer toutes les pages xml présentes sur le web pour approvisionner la base de données d'un moteur de recherche tourné vers le xml. Du fait de cette conception, Larbin est très généraliste.
 
Discussions similaires
Haut