Un bon outil d'extraction de données?

Nouveau WRInaute
Bonjour,

Je prépare un mémoire sur les moteurs de recherche et l'extraction de données. On dit que de plus en plus de comparateurs de prix ou de meta moteurs ne font pas que crawler le web à la recherche de contenus bien particuliers, mais que ceux-ci utilisent des applications d'extraction de données.

En outre, ils paramêtrent des scénarios sur des sites et ces applis permettent de générer un flux xml à la volée, connaissez vous des outils ou web app qui arrivent à faire cela ?

D'avance merci pour vos lumières.
 
WRInaute impliqué
si si depuis bien longtemps une nouvelle génération de comparateur crawle ton site pour récupérer le catalogue, en france twenga fait cela depuis au moins deux ans
 
WRInaute accro
finstreet a dit:
alors les comparateurs ne crawlent absolument pas le Web... ils échangent des fichiers avec les sites marchands

Froogle fonctionne partiellement par crawl.
Idem pour Grookster (suis plus sûr du nom).

Certains par contre fonctionnent essentiellement par feed XML.

Pour l'extraction de données, il faut pouvoir faire du sémantique, et je ne connais rien. J'ai recodé un outil pour ça, qui me dire une relative satisfaction (je dis relatif car ça reste lourd à maintenant sur le LT).

-http://www.voipfr.org/shopping/
Au passage, votre avis m'intéresse pour me dire si c'est naze ou pertinent, ou entre les deux ^^. (ne pas publier l'URL, svp, c'est encore du béta pas vraiment public).

EDIT-
C'est pas Grookster, c'est autre chose. Créé par un ancien de Tiscali pour la partie technique et avec l'appui d'un gars de Netbooster (tjrs de mémoire).
 
WRInaute occasionnel
J'avais écouté une interview d'un comparateur annonçant avoir développé un techno de "crawl furtif"

Si je retrouve la vidéo je poste le lien ici.

En tout cas, c'est certainement l'avenir des comparateurs. Ceux qui n'utilisent que les échanges de flux, c'est un peu la préhistoire... même s'il reste largement majoritaire aujourd'hui.
 
WRInaute accro
karak a dit:
J'avais écouté une interview d'un comparateur annonçant avoir développé un techno de "crawl furtif"

Si je retrouve la vidéo je poste le lien ici.

En tout cas, c'est certainement l'avenir des comparateurs. Ceux qui n'utilisent que les échanges de flux, c'est un peu la préhistoire... même s'il reste largement majoritaire aujourd'hui.
Bein, s'il existe des flux, le crawl n'a généralement pas grand intérêt.
La logique d'extraction doit être maintenue, et ce n'est pas de la tarte (pas de sémantique dans les sites Web, en général).
 
WRInaute accro
Suffit de parser les flux que l'on veut et les injecter dans sa BDD, 20 lignes php à coder et les parseurs c'est pas ca qui manque sur le web, donc 19 lignes pour le parseur et 1 pour le INSERT) puis faire des stats sur la BDD ( quelques requetes sql..)

pas de quoi fouetter un chat!!
 
WRInaute accro
KOogar a dit:
Suffit de parser les flux que l'on veut et les injecter dans sa BDD, 20 lignes php à coder et les parseurs c'est pas ca qui manque sur le web, donc 19 lignes pour le parseur et 1 pour le INSERT) puis faire des stats sur la BDD ( quelques requetes sql..)

pas de quoi fouetter un chat!!

Il parlait d'extraction structurée lors d'un crawl, pas de parsing XML.
 
WRInaute accro
ecocentric a dit:
KOogar a dit:
Suffit de parser les flux que l'on veut et les injecter dans sa BDD, 20 lignes php à coder et les parseurs c'est pas ca qui manque sur le web, donc 19 lignes pour le parseur et 1 pour le INSERT) puis faire des stats sur la BDD ( quelques requetes sql..)

pas de quoi fouetter un chat!!

Il parlait d'extraction structurée lors d'un crawl, pas de parsing XML.

:oops:
 
Nouveau WRInaute
C'est exactement ça, comment à partir d'une page web peut-on extraire des données bien particulières type prix, marque, modèle sur une fiche produit par exemple?

Existe-t-il un outil qui permette d'extraire des données non structurées d'une page web pour les repositionner dans un flux XML par exemple ?
 
WRInaute accro
si on connais le code à l'avance du document et les fiches ont le même template html ou css: c'est trés simple:
Avec 2-3 fonctions preg (<tag>(.*?)</tag>) + 1 requetes sql et le tour est jouée. C'est ni plus ni moins qu'1 parseur html/css. + 1 ptit script pour suivre les urls...

par contre, comme c'est le sujet du topic, si on veut crawler le web et essayer d'extraire n'importe quel page pour y chercher des infos, cela n'a plus rien à voir niveau développement avec un simple parseur. Cela devient une véritable application et à mon avis les sociétés qui ont developpés ce genre d'applications se gardent bien de les distribuer.
 
Discussions similaires
Haut