PHP/ Déterminer le contenu utile d'une page Web

WRInaute accro
Vous avez peut-être déjà croisé des projets qui, comme Majestic 12, travaillent à identifier le contenu utile HTML des pages indexées (= virer les headers, les footers, etc).

Avez-vous des informations / des idées sur les algorithmes qui peuvent être utilisés à cette fin?
 
WRInaute occasionnel
bigjet: Pas évident... strip_tags enlève les tags, mais pas leur contenu... ici, on parle de séparer "contenu parasite" et "contenu texte" ;)

A première vue, je pencherais pour le calcul du poids des balises par rapport au texte. Ca permet d'enlever facilement tout ce qui est nav, elements graphiques, etc (qui demandent plus de balises que le contenu texte)
 
WRInaute discret
Perso, je parserais plusieurs pages, et je retirais les élements récurrents (ce qui est présent sur toutes les pages est surement un header, footer ou menu).
 
Discussions similaires
Haut