Formation Google AnalyticsSavez-vous bien utiliser les outils de mesure d'audience ?
Effectuez-vous un calcul de ROI (Retour sur investissement) pour savoir comment améliorer vos campagnes emarketing ?
Savez-vous utiliser les bons outils pour booster votre taux de transformation ?
La formation Web Analytics de Ranking Metrics, présentée par un expert reconnu officiellement par Google Analytics, vous apportera les réponses à toutes vos questions !
===> Informations et inscriptions.

PHP/ Déterminer le contenu utile d'une page Web

Poster un nouveau sujet Imprimer cette discussion    Forum -> Développement d'un site Web   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
ecocentric
WRInaute accro
WRInaute accro

Inscrit le: 10 Fév 2004
Messages: 3321
Localisation: Mons

URL permanente de ce messagePosté le : Jeu Aoû 16, 2007 12:16    Sujet du message: PHP/ Déterminer le contenu utile d'une page Web

Vous avez peut-être déjà croisé des projets qui, comme Majestic 12, travaillent à identifier le contenu utile HTML des pages indexées (= virer les headers, les footers, etc).

Avez-vous des informations / des idées sur les algorithmes qui peuvent être utilisés à cette fin?
 
ecocentric Visiter le site web du posteur
bigjet
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 21 Nov 2004
Messages: 211

URL permanente de ce messagePosté le : Jeu Aoû 16, 2007 13:13    Sujet du message: PHP/ Déterminer le contenu utile d'une page Web

Fonction php strip_tags

http://fr.php.net/manual/fr/function.strip-tags.php
 
bigjet Visiter le site web du posteur
Didier_S
WRInaute passionné
WRInaute passionné

Inscrit le: 24 Aoû 2004
Messages: 561
Localisation: Paris

URL permanente de ce messagePosté le : Jeu Aoû 16, 2007 14:21    Sujet du message: PHP/ Déterminer le contenu utile d'une page Web

bigjet: Pas évident... strip_tags enlève les tags, mais pas leur contenu... ici, on parle de séparer "contenu parasite" et "contenu texte" Wink

A première vue, je pencherais pour le calcul du poids des balises par rapport au texte. Ca permet d'enlever facilement tout ce qui est nav, elements graphiques, etc (qui demandent plus de balises que le contenu texte)
 
Didier_S Visiter le site web du posteur
bigjet
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 21 Nov 2004
Messages: 211

URL permanente de ce messagePosté le : Jeu Aoû 16, 2007 14:53    Sujet du message: PHP/ Déterminer le contenu utile d'une page Web

Au temps pour moi, j'avais lu le post en diagonale Embarassed
 
bigjet Visiter le site web du posteur
sureau
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 07 Mar 2005
Messages: 191
Localisation: annecy

URL permanente de ce messagePosté le : Jeu Aoû 16, 2007 15:36    Sujet du message: PHP/ Déterminer le contenu utile d'une page Web

Perso, je parserais plusieurs pages, et je retirais les élements récurrents (ce qui est présent sur toutes les pages est surement un header, footer ou menu).
 
sureau Visiter le site web du posteur
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Développement d'un site Web Toutes les heures sont au format GMT + 2 Heures
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort