astuce pour récupération flux de news

Fab le Fou · 27 Mars 2006

Salut !

Je cherche une astuce permettant de récupérer facilement l'adresse du flux de news (rss ou atom) d'un site.

En effet, la majorité des sites proposant un flux ne fournissent pas l'adresse autre part que dans le code ce qui ne facilite pas la tache de l'internaute lambda qui souhaite recopier l'adresse dans son lecteur de news.

Idéalement l'astuce si elle existe, fonctionnera aussi avec IE...

Fab

HawkEye · 27 Mars 2006

Google Desktop avec la Desktop Bar

>> Après 2 jours de surf tu auras déjà une belle série de flux

Fab le Fou · 27 Mars 2006

Il s'agit d'un lecteur.

Je cherchais surtout une solution pour qu'un internaute puisse facilement trouver l'adresse du flux d'un site pour ensuite le lire via le lecteur de son choix.

Mais je ne suis pas certain que cela soit actuellement possible....

mr_go · 27 Mars 2006

Une sorte d'annuaire de flux RSS ?

Fab le Fou · 27 Mars 2006

mr_go a dit:
Une sorte d'annuaire de flux RSS ?

Je pensais surtout à un raccourci clavier ou quelque chose comme-ça.

Parce que pour l'annuaire il faut encore que le site intéressant l'internaute y soit inscrit et que l'annuaire fournisse lui-même l'adresse du flux en toutes lettres ...

Tiens je vais peut-être d'ailleurs ajouter cette infos à mes annuaires :wink:

mr_go · 27 Mars 2006

Je pensais surtout à un raccourci clavier ou quelque chose comme-ça.

Directement sur le site ?
Ah tiens c'est une bonne idée, mais cela dépend en fait de l'agrégateur du client. Certains agrégateurs repèrent effectivement les flux rss d'une page.

Tiens je vais peut-être d'ailleurs ajouter cette infos à mes annuaires

Je prends une commmission de 0.01 € pour chaque clic sur le flux RSS. Droit à la propriété intellectuelle oblige. Quoique, je me demande si certains n'ont pas déjà eu l'idée...

Fab le Fou · 27 Mars 2006

mr_go a dit:
Je prends une commmission de 0.01 € pour chaque clic sur le flux RSS. Droit à la propriété intellectuelle oblige. Quoique, je me demande si certains n'ont pas déjà eu l'idée...

Ne prend pas "la mouche" :wink: mais c'est manifestement le cas : -http://www.lamoooche.com/annuaire_rss.php

Mais comme les critères d'acceptation de cet annuaire ne sont pas forcément ceux des internautes on est pas forcément plus avancé. :roll:

Il y a peut-être unepetite fonction php qui fournit les balises "link" d'un site comme c'est le cas pour les "metas".

Sinon, ça ne doit pas être très compliqué à développer et assez pratique.

Fab

mr_go · 27 Mars 2006

Arg moi qui comptait sur ca pour me payer un serveur dédié... tant pis alors!

Il y a peut-être unepetite fonction php qui fournit les balises "link" d'un site comme c'est le cas pour les "metas".

Oui ca existe. Je te conseille d'aller voir du coté de la classe Snoopy qui est très interressante.

Concernant les liens RSS : le problème, c'est qu'il n'y a pas de différenciation syntaxique entre un lien RSS et un autre lien quelconque du type image ou page html. Il faudrait donc vérifier le contenu de tous les liens d'une page, ce qui, en terme de ressource réseau, reste assez génant.

scores · 27 Mars 2006

Le plus simple que j'ai trouvé pour récuper les flux RSS, c'est bien FireFox.
quand un flux est dispo sur un site on trouve le logo orange au niveau de la barre d'addresse url, suffit juste de cliquer dessus...

O kok j'ai rien dis, j'avais pas vu que c'était pour le dev...

Fab le Fou · 27 Mars 2006

mr_go a dit:
Concernant les liens RSS : le problème, c'est qu'il n'y a pas de différenciation syntaxique entre un lien RSS et un autre lien quelconque du type image ou page html. Il faudrait donc vérifier le contenu de tous les liens d'une page, ce qui, en terme de ressource réseau, reste assez génant.

En fait on doit quand même pouvoir les détecter, grâce à la propriété "type".

Par exemple pour WRI :

Code:

<link rel="alternate" type="application/rss+xml" title="Actualité WebRankInfo : syndication au format RSS 0.91" href="https://www.webrankinfo.com/rss.php">

Bon aller, je vais voir de + près quel genre de cabot est ce snoopy :wink:

mr_go · 27 Mars 2006

Ca necessite tout de même l'envoi du header de la page.
Pour un site comme WRI ca passe, mais pour un annuaire avec 500 liens par page, ca risque d'être un peu long...

chantra · 27 Mars 2006

Code:

<link rel="alternate" type="application/rss+xml" title="Actualité WebRankInfo : syndication au format RSS 0.91" href="https://www.webrankinfo.com/rss.php">

Je pense que c'est la meilleure solution.

Fab le Fou · 27 Mars 2006

Oui pour faire un script, il faudra par exemple ouvrir la page du site intéressant l'internaute avec file() et chercher cette fameuse balise <link ...>, en sachant que comme c'est le cas pour wri il peut y avoir plusieurs flux de proposés...

En espérant aussi que le webmaster aura donné un "title" significatif pour chaque flux.

mr_go · 27 Mars 2006

Avec snoopy le parcours se fait en une ligne

$snoopy->fetchlinks($une_url);
foreach($snoopy->results as $id => $val)
print "$val";

=)

Edit : enfin 3 ne chipoptons pas

Re-edit: bien évidemment, ici on n'afiche uniquement les liens de la page, mais ca peut te donner une idée de la bibliothèque.

aladdin · 27 Mars 2006

si t'aime python tien ça

-http://diveintomark.org/archives/2002/05/31/rss_autodiscovery_in_python

Fab le Fou · 27 Mars 2006

Oui le script python a l'air très simple mais il ne gère que le RSS et pas Atom ?

Et comme je ne connais pas du tout python je ne risque pas de l'adapter.

Fab le Fou · 27 Mars 2006

Bon finalement après avoir lu la doc de la classse snoopy, il ne me semble qu'elle m'apporte grand chose pour mon problème

J'ai donc tenté d'écrire le code moi-même, mais évidemment ça ne marche pas !

Voici le code :

Code:

<?php
$lignes=file("$url"); 
$i=0;
while (isset($lignes[$i]))
{
if (eregi('<link rel="alternate" type="application/rss+xml" title="(.*)" href="(.*)"',$lignes[$i],$regs))
 {
 echo "Titre du file : ".$regs[1]."<br/>";
 echo "Adresse du file : ".$regs[2]."<br/>";
 }
$i++;
}
?>

Il s'agit d'une ébauche de code puisqu'il faut que je prévois le cas des flux Atom + le cas des apostrophe simple, etc. mais cela devrait déjà me donner quelque chose pour des pages ayant un flux RSS, or ça ne marche pas.

En changeant mon expression pour récupérer le contenu de la balise <title>, ça fonctionne pourtant bien...

Je ne suis pas très fort en expressions régulières, donc j'ai sans doute faite une boulette ?