| |
Savez-vous bien utiliser les outils de mesure d'audience ? Effectuez-vous un calcul de ROI (Retour sur investissement) pour savoir comment améliorer vos campagnes emarketing ? Savez-vous utiliser les bons outils pour booster votre taux de transformation ? La formation Web Analytics de Ranking Metrics, présentée par un expert reconnu officiellement par Google Analytics, vous apportera les réponses à toutes vos questions ! ===> Informations et inscriptions.
|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
ecocentric WRInaute accro

Inscrit le: 10 Fév 2004 Messages: 3321 Localisation: Mons
|
Posté le : Jeu Aoû 16, 2007 12:16 Sujet du message: PHP/ Déterminer le contenu utile d'une page Web |
|
|
Vous avez peut-être déjà croisé des projets qui, comme Majestic 12, travaillent à identifier le contenu utile HTML des pages indexées (= virer les headers, les footers, etc).
Avez-vous des informations / des idées sur les algorithmes qui peuvent être utilisés à cette fin? |
|
| |
|
 |
bigjet WRInaute occasionnel

Inscrit le: 21 Nov 2004 Messages: 211
|
|
| |
|
 |
Didier_S WRInaute passionné

Inscrit le: 24 Aoû 2004 Messages: 561 Localisation: Paris
|
Posté le : Jeu Aoû 16, 2007 14:21 Sujet du message: PHP/ Déterminer le contenu utile d'une page Web |
|
|
bigjet: Pas évident... strip_tags enlève les tags, mais pas leur contenu... ici, on parle de séparer "contenu parasite" et "contenu texte"
A première vue, je pencherais pour le calcul du poids des balises par rapport au texte. Ca permet d'enlever facilement tout ce qui est nav, elements graphiques, etc (qui demandent plus de balises que le contenu texte) |
|
| |
|
 |
bigjet WRInaute occasionnel

Inscrit le: 21 Nov 2004 Messages: 211
|
Posté le : Jeu Aoû 16, 2007 14:53 Sujet du message: PHP/ Déterminer le contenu utile d'une page Web |
|
|
Au temps pour moi, j'avais lu le post en diagonale  |
|
| |
|
 |
sureau WRInaute occasionnel

Inscrit le: 07 Mar 2005 Messages: 191 Localisation: annecy
|
Posté le : Jeu Aoû 16, 2007 15:36 Sujet du message: PHP/ Déterminer le contenu utile d'une page Web |
|
|
| Perso, je parserais plusieurs pages, et je retirais les élements récurrents (ce qui est présent sur toutes les pages est surement un header, footer ou menu). |
|
| |
|
 |
| |
|
|
|
|
Autres sujets de discussion :
|
|