Recherche de script de crawler en php

marciv

WRInaute discret
Bonjour tout le monde je sui sesepérement à la recherche d'un script ou d'une librairie phpsous licence GNU qui me permettrait de faire la chose suivant=>


1) Crawl d'un site internet integral ou partiel.
2) Extraction nom de pages, des liens y conduisant et du titre du lien.
3) Generation de l'arborescence en flux XML ou dans une base SQL.
4)Refonte des crawl partiels avec les résultats précédents.

(Ou cas ou je devrait faire tout moi même En dehors de la norme sitemap de chez google existe t'il un autre moyen de représenter l'arborescence d'un site en concervant la page de provenance ?).

Bon j suis dans le truc à Eplucher un peux tout c possible que je sois pas très clair mais si quelqu'un avait des pistes ou des script même différents de crawl (sans indexation des fichiers) je suis préneur.

++
 

marciv

WRInaute discret
a quoi ça sert

Et bien entre autre à developper un moteur thématique avec une indexation de mon cru :wink: . pour cela il me faut un bon crawler rapide et efficace qui puisse comprendre les liens java et touner sur un PC classique.

Pour l'instant je me suis fait un script tournant avec des regex mais cela le ralentit considérablement.

Voici les regex :

Code:
echo "<strong>Extraction des liens</strong>:<br> ";
 			$links1=run_preg($buffer,
 			"/(?:(?:src|href|url)\s*[=\(]\s*[\"'`])".
   			"([\+\w:?=@&\/#._;-]+)(?:[\s\"'`])/i",$domaine);
  			//$links2=run_preg($buffer,
   			//"/(?:window.open\s*\(\s*[\w-]*\s*[,]\s*[\"`'])".
   			//"([\+\w:?=@&\/#._;-]*)(?:[\"'`]\s*)/i",$domaine);
			//$links=array_unique(array_merge($links1,$links2)); // fusion de tous les liens

donc je me penche sur strpos et stripos pour essayer de faire la même chose plus rapidement.

J'ai l'impression de réinventer la roue ! C'est pourqoi j'épérait que d'autre que moi avait déjà développé des classes php pour crawler des sites dont j'aurait pu m'inspirer.

Car de toute façon cela ne résout pas le problème pour les liens JAVA plus compliqués......

La solution peut surement venir d'un applet pour interpréter les liens mais là je cale....
 

marion17

WRInaute occasionnel
phpdig fera ça a merveille

par contre il te faut un serveru dédié, sur un mutualisé c de la folie douce un crawler
 

marciv

WRInaute discret
crawler

Effectivement un mualisé pour un dédié c'est de la folie je pense que je vais en profiter pour monter mon propre serveur WEB le problème viendra surtout d'une limitation de la bande passante...

pour phpdig il me semble que le développement est au ralentit depuis longtemps

sphider est un script de moteur de recherche php

sphider me semble plus sympatique avec en bonus une présentation à la google suggest. :wink:

Néanmoins je ne pense pas que la pertinence du titre du lien soit pris par l'un ou l'autre ce que je trouve ennuyeux et de plus ils utilisent tout les deux des regex ce qui les ralentit énormément enfin je préfére développer ma propre indexation quitte à m'inspirer en fonction de la thématique du moteur je pense que c'est plus éfficace.
 

Discussions similaires

Haut