Lire un index Lucene

WRInaute accro
> Que cherches tu as faire ?

J'ai créé plusieurs moteurs de recherche spécialisés (news, podcasts, BitTorrent, etc ; d'autres vont pê suivre), généralement basés sur des développements personnels (fichiers texte ou MySQL FULLTEXT), et m'interroge sur l'opportunité, pour certains développements, de travailler avec un index standard (notamment pour des raisons de pertinence). D'où mon intérêt pour Lucene.

Pour le moment, tout est hébergé sur des mutualisés : c'est suffisamment performant et ça ne me coûte pas cher.

Ce à quoi je pense :
- faire un crawl ciblé avec mon crawler (nouveau développement Python, pas super rapide -améliorable-, mais très simple et très souple côté paramétrage).
- faire une indexation avec PyLucene (je le prendrais plutôt que Lucene parce que je maîtrise mieux Python et que, de plus, Java est un langage que je trouve personnellement assez lourd).
- envoyer les index Lucene par FTP (apparemment, ce sont de simple fichiers, donc c'est faisable).
- interroger ces index sur le mutualisé en PHP.

C'est sur ce dernier point que je vois moins la solution.

Pour replacer ça dans un contexte plus global, j'ai commencé à développer une boîte à outil modulaire pour créer des moteurs spécialisés, sachant que mon idée est de pouvoir choisir des modules à la carte suivant le type de moteur que je veux développer.

Ton avis m'intéresse, j'ai déjà remarqué que tu étais bien branché technologie de recherche ;-) .

Note : Je connais Nutch, mais il me paraît trop lourd pour ce que je veux développer, qui de plus ne nécessite pas de crawls massifs.

EDIT - donc, je ne cherche pas de portage Lucene complet pour PHP, ce que je cherche, c'est plutôt la possibilité d'interroger un index Lucene en PHP.
 
WRInaute impliqué
Pour ce qui est de l'utilisation des index Lucene en PHP, à part le Zend Framework, je ne vois rien d'autre, de toute façon, une solution basée à 100% sur PHP ne me semble pas réellement viable, les algos utilisés sont complexes et PHP n'est pas réputé pour être efficace sur ce point.

Une solution serait de faire une extension PHP en compilant Lucene avec GCJ, mais là, il faut un dédié.

Sinon, tu peut peut être te tourner vers mnogosearch, certains mutualisés ont l'extension d'activée et si tu as de bonnes relations avec ton hébergeur, il peut peut être te l'installer.
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut