PHP/ Déterminer le contenu utile d'une page Web

ecocentric · 16 Août 2007

Vous avez peut-être déjà croisé des projets qui, comme Majestic 12, travaillent à identifier le contenu utile HTML des pages indexées (= virer les headers, les footers, etc).

Avez-vous des informations / des idées sur les algorithmes qui peuvent être utilisés à cette fin?

bigjet · 16 Août 2007

Fonction php strip_tags

http://fr.php.net/manual/fr/function.strip-tags.php

Didier_S · 16 Août 2007

bigjet: Pas évident... strip_tags enlève les tags, mais pas leur contenu... ici, on parle de séparer "contenu parasite" et "contenu texte"

A première vue, je pencherais pour le calcul du poids des balises par rapport au texte. Ca permet d'enlever facilement tout ce qui est nav, elements graphiques, etc (qui demandent plus de balises que le contenu texte)

bigjet · 16 Août 2007

Au temps pour moi, j'avais lu le post en diagonale

sureau · 16 Août 2007

Perso, je parserais plusieurs pages, et je retirais les élements récurrents (ce qui est présent sur toutes les pages est surement un header, footer ou menu).