Comment "nettoyer" une page du texte non visible ?

WRInaute occasionnel
Question à trois francs :

Je cherche à extraire le texte "visible par les moteurs" d'une page web.

Je peux passer par un outil d'analyse de texte genre www.outiref.com mais il me sort du texte brut, un peu trop brut, sans mêmes les balises importantes pour les moteurs (h1, h2...)

Existe-t-il un outil qui sort le texte ainsi formaté ?

Et sinon, n'y a-t-il pas un développeur qui aurait la merveilleuse idée de créer un outil qui cracherait à partir d'une page web un résultat du genre :

Code:
<title>le titre de la page</title>
<description> une page web en voila qu'elle est belle</description>
<h1>une page hyper importante sur un sujet passionnant</h1>
<h2>rubrique 1</h2>
<h2>rubrique 2</h2>
 
WRInaute passionné
Salut,

En php ça se fait assez simplement :

Tu récuperes la source d'une url :

Code:
$src = implode('',file('http://www.example.com'));

et tu enleves toutes les balises html que tu veux via strip_tags :

Code:
$src = strip_tags($src,'<h1>');

Par exemple !

http://fr2.php.net/strip_tags
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut