Générateur automatique de contenu, pour webmaster.

gastonB · 4 Juin 2008

Salut à tous,

Je viens de finir de développer un script PHP, pour générer du contenu à volonté sur la bases de multiples flux RSS que l’on choisi.
Je suis plutôt content de moi et je me demande même si je ne viens pas de créer un truc qui va foutre la m... chez les référenceurs...
Bref, j’ai mis tout ça en GPL et votre avis est grandement bienvenu.

En fait, je me demande si Google reconnaît le contenu des RSS et le référence ?

J’aurai voulu savoir si le contenu des flux affiché sur ma page pourrait m’amener des pénalités ?

J’espère que j’ai réussi à m’exprimer correctement.
Merci

P.S : Le script est sur le site de mon profil.
EDIT : Comme je suis nouveau mon site n'apparaît pas: rss-aggregator_com

biddybulle · 4 Juin 2008

Pour l'avoir développé également pour Wordpress avec un petit plugin il y a un moment sur un blog de test avec quelques 3000 à 4000 flux généré au fur et à mesure quotidiennement dans un domaine très concurrentiel et sans ne jamais en travailler le référencement, ca n'a jamais rien apporté.

Très peu de visiteurs sur quelques phrases clés. Donc pour moi oui et heureusement Google repére ces contenus poubelle qu'on lui file à manger et à classer.

Après en bossant le réf, il est sans doute possible de gagner en notoriété et d'obtenir un meilleur taux de confiance pour Google.

Pservolex · 4 Juin 2008

Salut les arraignées,

et de 1.
Ton site is in english or tu es french, je comprends qu'ils sont plus nombreux mais t'aurais pu faire une FAQ en francais (même si je vois mal un webmaster fr ne pas être en mesure de paner une FAQ en english)

et de 2.
Amusant comme question : est-ce que GG est capable de reconnaitre des morceaux de textes et leur source RSS .... Hmmm possible
Est-ce qu'il est capable de reconnaitre des morceaux au milieux d'autres ... moins evident
Quand à la pénalité, ca m'etonnerai, à la limite la non-prise en compte comme le dit biddybulle

et de 3.
Ton script à l'air plutot pas mal et pratique et m'en vais l'essayer de ce pas

et de 4.
Et une reco pour que tout le monde utilise le contenu de tout le monde !!

Farenheit · 4 Juin 2008

bonjour,

ton archive semble avoir un probleme lors du decompactage :

This archive is not a valid Zip archive 8O

Pservolex · 4 Juin 2008

This archive is not a valid Zip archive

chez moi ca marche , mais c'est vrai qu'elle est strange ton archive, on dirait que ca vient d'un Mac

dudo · 4 Juin 2008

P.S : Le script est sur le site de mon profil.

bonjour,

Je vois pas de site sur ton profil, on le récupère ou
ce script ?

merci

gastonB · 4 Juin 2008

dudo a dit:
P.S : Le script est sur le site de mon profil.

bonjour,

Je vois pas de site sur ton profil, on le récupère ou
ce script ?

merci

Comme je suis nouveau mon site n'apparaît pas : rss-aggregator_com

myMetz · 4 Juin 2008

Google est capable de dire si le contenu que tu utilise est pompé ailleurs. Cela rentre dans le cadre du duplicate content :

Parce que l'article que tu pompé à un lien vers la source cible et si vous etes mille à faire ça c'est pas compliqué d'en déduire que mille article pointant sur une meme page présentant les memes informations, ... déduction ? areurh!...

nickargall · 4 Juin 2008

En fait, c'est pas un générateur automatique de contenu, mais "simplement" un aggrégateur RSS thématique, ou alors j'ai pas bien compris le concept !

gastonB · 4 Juin 2008

nickargall a dit:
En fait, c'est pas un générateur automatique de contenu, mais "simplement" un aggrégateur RSS thématique, ou alors j'ai pas bien compris le concept !

Ouais c'est ça.
Sauf qu'il est automatique et qu'il génère du contenu.

dudo · 4 Juin 2008

Je viens de finir de développer un script PHP, pour générer du contenu à volonté sur la bases de multiples flux RSS que l’on choisi.

Ce qui m'interresse c'est comment tu brasses les flux en php, et puis tu as mis un cache sur ton site ?. Cela dit ton fichier est impossible à dézipper, tu peux pas changer ton format, c'est galère ?

merci

gastonB · 4 Juin 2008

dudo a dit:
Je viens de finir de développer un script PHP, pour générer du contenu à volonté sur la bases de multiples flux RSS que l’on choisi.

Ce qui m'interresse c'est comment tu brasses les flux en php, et puis tu as mis un cache sur ton site ?. Cela dit ton fichier est impossible à dézipper, tu peux pas changer ton format, c'est galère ?

merci

Les flux sont checker par Magpie, à une fréquence défini dans l'admin (ou par Crontab), et les flux sont archivé dans une base MySQL.

Pour ce qui est du zip, je vais mettre plusieurs format au plus vite.
Mais chez moi je fait directement "ouvrir" au lieu de "enregistrer" et ça marche.

gastonB · 4 Juin 2008

Cela dit ton fichier est impossible à dézipper, tu peux pas changer ton format, c'est galère ?

C'est réglé

Pservolex · 4 Juin 2008

Bon, ben après quelques tests, je dirai ceci :

:arrow: La vache, il arrache ton script pour fénéants !

C'est con, je peux pas faire part des pages où je fais le test (because c'est pour adultes)

Bon boulot

dabYo · 4 Juin 2008

Peut on voir ce que ça donne avec les sources et le résultat ?

Même si je n'aime pas du tout le principe :/

Farenheit · 4 Juin 2008

dommage qu'il n y ai pas des images des sites qui les proposent dans leur flux ?

;-)

gastonB · 4 Juin 2008

dabYo a dit:
Peut on voir ce que ça donne avec les sources et le résultat ?

Même si je n'aime pas du tout le principe :/

oui. www.rss-aggregator_com

jongleur · 10 Juin 2008

bonjour,
Heu, GastonB, c'est lagaffe, je ne peu ni ouvrir ni charger le zip?

A+

dawei · 10 Juin 2008

A tester avant de donner son avis. Et une reco, une

J'avais déjà chercher ce genre de script mais je n'avais rien trouvé d'assez "automatique"

syl20 · 10 Juin 2008

Le ZIP ne fonctionne pas... Merci...

Marie-Aude · 10 Juin 2008

gastonB a dit:
En fait, je me demande si Google reconnaît le contenu des RSS et le référence ?

Google reconnait le contenu des RSS, le crawle et l'utilise pour indexer les pages web qui sont liées, mais ne l'indexe plus en tant que flux rss dans les pages de résultat.

Après les affaires Fuzz et autres, faut un certain courage pour se lancer dans ce genre d'automatisme.

melaniezette · 10 Juin 2008

Euh le site ne s'ouvre plus.... Dommage ça m'interessais bien cette histoire de générateur de contenu :?

melaniezette · 10 Juin 2008

melaniezette a dit:
Euh le site ne s'ouvre plus.... Dommage ça m'interessais bien cette histoire de générateur de contenu :?

Ah si ça y est en fait ça s'ouvre, faut tapper .com et pas _com...!!!

Bon on peut etre webmistress et blonde hein ! :lol:

NoGlob · 10 Juin 2008

Marie-Aude a dit:
gastonB a dit:

En fait, je me demande si Google reconnaît le contenu des RSS et le référence ?

Cliquez pour agrandir...

Google reconnait le contenu des RSS, le crawle et l'utilise pour indexer les pages web qui sont liées, mais ne l'indexe plus en tant que flux rss dans les pages de résultat.

Après les affaires Fuzz et autres, faut un certain courage pour se lancer dans ce genre d'automatisme.

+100
J'ai fais un script dans le style pour tester il y a quelques mois, les 3 sites que j'ai fais pour les tests se sont fais recalés loin dans les résultats de Google et autres moteurs.

Il n y a que l'accueil qui se positionne comme tout site correctement référencé et les pages ayant du contenu agrégé sont dans une espace de back à sable.

gastonB · 10 Juin 2008

jongleur a dit:
bonjour,
Heu, GastonB, c'est lagaffe, je ne peu ni ouvrir ni charger le zip?
A+

C'est bon, j'ai résolu le problème.
Désolé, j'ai des problèmes de serveur en ce moment :?

N'hésite pas à me faire un retour quand tu l'aura testé :wink:
Qu'il soit positif ou négatif.

Etnyk · 5 Juin 2009

Hello !
Une autre façon de créer du contenu pour vos sites Web : le mashup.
Un exemple : GreenIvory a développé MashupXpress, un outil pour dynamiser son site Web. Il va agréger des informations de sources diverses, pour ensuite filtrer puis publier leur contenu sur votre propre site Web.
Pour plus d'explications,c'est ici. Ca vous intéresse ?

Leonick · 5 Juin 2009

Etnyk a dit:
Une autre façon de créer du contenu pour vos sites Web : le mashup.

c'est ça le web 3.0 ? le 2.0 on attendait que l'internaute crée le contenu et le 3.0, on va chercher automatiquement le contenu sur d'autres sites pour créer le sien, c'est bien ça ? :roll:

ringout · 5 Juin 2009

je viens de le testé que du DC :lol:

Etnyk · 5 Juin 2009

Au sujet du Duplicate Content, je ne pense vraiment pas que Google soit capable de comparer chaque phrase d'un site avec l'ensemble du Web pour trouver du contenu dupliqué...
Si c'était le cas, un site comme secrets2moteurs n'aurait pas un PageRank de 5, tout en étant en très grande partie (voire entièrement) constitué de reprises d'autres articles.

Ringout > Comment l'as-tu testé ?

ringout · 5 Juin 2009

salut,
voici un exemple : https://www.google.fr/search?hl=fr&q=%22I+just+realized+I%27ve+been+blo ... =&aq=f&oq=
google a trouvé 247 sites qui contient cette phrase. déjà c'est une bonne nouvelle

en allant dans la deuxième page de recherche de google tu trouvera juste en bas la belle phrase :

Pour limiter les résultats aux pages les plus pertinentes (total : 10), Google a ignoré certaines pages à contenu similaire.
Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.

donc pour 247 sites trouver google na laissé que les gros sites avec du trustrank

twitter
adobe
technorati
...etc ...
les autres seront sanctionné automatiquement :wink:

johnny-57 · 9 Juin 2009

etnyk, est il possible de voir une démo de ta version ?

quentin123 · 10 Juin 2009

c'etait exactement ce que je cherchais il y a quelques mois , mais ca risque de m'être encore utile donc MERCI

Etnyk · 24 Juin 2009

quentin123 a dit:
c'etait exactement ce que je cherchais il y a quelques mois , mais ca risque de m'être encore utile donc MERCI

De rien, moi qui avais peur de faire de la "pub" gratuite... J'espère que ca te sera utile !

johnny-57 a dit:
etnyk, est il possible de voir une démo de ta version ?

Désolé, j'ai un peu tardé à répondre...
Un exemple : sur la page d'accueil de GreenIvory, les rubrique "news" et "industry buzz"...
Le site Informix Mag fonctionne aussi avec MasupXFeed (version plus complète de MashupXpress)

Leonick a dit:
c'est ça le web 3.0 ? le 2.0 on attendait que l'internaute crée le contenu et le 3.0, on va chercher automatiquement le contenu sur d'autres sites pour créer le sien, c'est bien ça ? :roll:

MashupXpress n'est pas du vol de contenu : ça contribue à la richesse de ton site, et tant que tu ne récupère pas un article entier et que tu cites la source, il n'y a pas de problème.
De plus, ton site devient plus intéressant pour les internautes (doublement de la durée de visite constaté sur certains sites comme Neonova)...

Leonick · 24 Juin 2009

Etnyk a dit:
MashupXpress n'est pas du vol de contenu : ça contribue à la richesse de ton site, et tant que tu ne récupère pas un article entier et que tu cites la source, il n'y a pas de problème.

la richesse de ton site à partir du contenu créé par d'autres. En plus, mettre le lien vers l'article d'origine avec comme ancre "ici" alors que le lien de la page d'accueil de greeniv... est fait avec comme ancre le titre de l'article et que l'url est créée, elle aussi, à partir du titre de l'article, c'est carrément plus que borderline.

Etnyk a dit:
De plus, ton site devient plus intéressant pour les internautes (doublement de la durée de visite constaté sur certains sites comme Neonova)...

au détriment du site dont les informations ont été récupérées illégalement
Et ne ressors pas l'excuse habituelle "oui, mais on envoie des visiteurs sur le site à l'origine de la news", car les url et ancres super optimisées ne sont pas là par hasard, mais pour se positionner sur ces requêtes là et essayer de récupérer des visiteurs qui auraient dû normalement aller sur le vrai site à l'origine de la news.

Regarde bien sur les sites où les infos sont pompées : tu verras que l'utilisation des flux rss ne peut être effectuée que pour un usage personnel et, surtout pas, pour créer ex nihilo du contenu pour un site :evil:
Au niveau droit d'auteur, tout ce qui n'est pas explicitement autorisé est interdit. C'est simple :wink:

UsagiYojimbo · 24 Juin 2009

Si on possède un site qui est repris par le système, j'espère qu'il est possible de demander le retrait du site en question (pour les raisons données par Leonick ci-dessus par exemple).

Leonick · 24 Juin 2009

UsagiYojimbo a dit:
Si on possède un site qui est repris par le système, j'espère qu'il est possible de demander le retrait du site en question (pour les raisons données par Leonick ci-dessus par exemple).

oui, en faisant un référé au TGI. Car là, il n'y a aucunement besoin de rappeler au webmaster qu'il savait pertinemment ne pas respecter la loi. :evil:

Etnyk · 25 Juin 2009

Leonick a dit:
En plus, mettre le lien vers l'article d'origine avec comme ancre "ici" alors que le lien de la page d'accueil de greeniv... est fait avec comme ancre le titre de l'article et que l'url est créée, elle aussi, à partir du titre de l'article, c'est carrément plus que borderline.

En quoi est-ce "borderline" de bien concevoir son site ?

Leonick a dit:
au détriment du site dont les informations ont été récupérées illégalement
Et ne ressors pas l'excuse habituelle "oui, mais on envoie des visiteurs sur le site à l'origine de la news", car les url et ancres super optimisées ne sont pas là par hasard, mais pour se positionner sur ces requêtes là et essayer de récupérer des visiteurs qui auraient dû normalement aller sur le vrai site à l'origine de la news.

Je vais prendre un exemple : le site Secrets2moteurs. Un internaute qui trouve ce site suite à une requête ne s'arrête pas à l'extrait d'article proposé, il va voir le contenu en entier ! N'est-ce pas une manière de lui ramener le trafic auquel il a droit ?

Leonick a dit:
Regarde bien sur les sites où les infos sont pompées : tu verras que l'utilisation des flux rss ne peut être effectuée que pour un usage personnel et, surtout pas, pour créer ex nihilo du contenu pour un site :evil:
Au niveau droit d'auteur, tout ce qui n'est pas explicitement autorisé est interdit. C'est simple :wink:

... à l'exception des courtes citations ! Pour plus d'infos, voir cet article...

Tout dépend donc de l'usage que fait le webmaster de MashupXpress.

cedric_g · 25 Juin 2009

Voilà l'une des raisons pour laquelle je ne diffuse que des flux RSS courts...

Le genre de truc qui me fait bondir.

Leonick · 25 Juin 2009

Etnyk a dit:
N'est-ce pas une manière de lui ramener le trafic auquel il a droit ?

le meilleur moyen de lui ramener du trafic serait simplement de ne pas lui en piquer, avec son propre contenu

Leonick a dit:
... à l'exception des courtes citations ! Pour plus d'infos, voir cet article...

article que, visiblement, tu n'as pas lu ou pas compris.
C'est explicitement marqué que ce type de vol de contenu est absolument interdit sans une autorisation explicite de l'auteur initial.

les-infostrateges a dit:
Le simple agencement d'un ensemble de courtes citations n'est pas librement permis ; il s'agit dans ce cas d'une anthologie, entrant dans la catégorie des oeuvres dérivées, supposant l'accord des auteurs des oeuvres empruntées.

et c'est pourtant ce que font les mashup :twisted: