Générateur automatique de contenu, pour webmaster.

Nouveau WRInaute
Salut à tous,

Je viens de finir de développer un script PHP, pour générer du contenu à volonté sur la bases de multiples flux RSS que l’on choisi.
Je suis plutôt content de moi et je me demande même si je ne viens pas de créer un truc qui va foutre la m... chez les référenceurs...
Bref, j’ai mis tout ça en GPL et votre avis est grandement bienvenu.

En fait, je me demande si Google reconnaît le contenu des RSS et le référence ?

J’aurai voulu savoir si le contenu des flux affiché sur ma page pourrait m’amener des pénalités ?

J’espère que j’ai réussi à m’exprimer correctement.
Merci

P.S : Le script est sur le site de mon profil.
EDIT : Comme je suis nouveau mon site n'apparaît pas: rss-aggregator_com
 
WRInaute passionné
Pour l'avoir développé également pour Wordpress avec un petit plugin il y a un moment sur un blog de test avec quelques 3000 à 4000 flux généré au fur et à mesure quotidiennement dans un domaine très concurrentiel et sans ne jamais en travailler le référencement, ca n'a jamais rien apporté.

Très peu de visiteurs sur quelques phrases clés. Donc pour moi oui et heureusement Google repére ces contenus poubelle qu'on lui file à manger et à classer.

Après en bossant le réf, il est sans doute possible de gagner en notoriété et d'obtenir un meilleur taux de confiance pour Google.
 
WRInaute discret
Salut les arraignées,

et de 1.
Ton site is in english or tu es french, je comprends qu'ils sont plus nombreux mais t'aurais pu faire une FAQ en francais (même si je vois mal un webmaster fr ne pas être en mesure de paner une FAQ en english)

et de 2.
Amusant comme question : est-ce que GG est capable de reconnaitre des morceaux de textes et leur source RSS .... Hmmm possible
Est-ce qu'il est capable de reconnaitre des morceaux au milieux d'autres ... moins evident
Quand à la pénalité, ca m'etonnerai, à la limite la non-prise en compte comme le dit biddybulle

et de 3.
Ton script à l'air plutot pas mal et pratique et m'en vais l'essayer de ce pas

et de 4.
Et une reco pour que tout le monde utilise le contenu de tout le monde !!
 
WRInaute discret
bonjour,

ton archive semble avoir un probleme lors du decompactage :

This archive is not a valid Zip archive 8O
 
WRInaute impliqué
P.S : Le script est sur le site de mon profil.

bonjour,

Je vois pas de site sur ton profil, on le récupère ou
ce script ?

merci
 
Nouveau WRInaute
dudo a dit:
P.S : Le script est sur le site de mon profil.

bonjour,

Je vois pas de site sur ton profil, on le récupère ou
ce script ?

merci

Comme je suis nouveau mon site n'apparaît pas : rss-aggregator_com
 
WRInaute discret
Google est capable de dire si le contenu que tu utilise est pompé ailleurs. Cela rentre dans le cadre du duplicate content :

Parce que l'article que tu pompé à un lien vers la source cible et si vous etes mille à faire ça c'est pas compliqué d'en déduire que mille article pointant sur une meme page présentant les memes informations, ... déduction ? areurh!...
 
WRInaute accro
En fait, c'est pas un générateur automatique de contenu, mais "simplement" un aggrégateur RSS thématique, ou alors j'ai pas bien compris le concept !
 
Nouveau WRInaute
nickargall a dit:
En fait, c'est pas un générateur automatique de contenu, mais "simplement" un aggrégateur RSS thématique, ou alors j'ai pas bien compris le concept !

Ouais c'est ça.
Sauf qu'il est automatique et qu'il génère du contenu. :D
 
WRInaute impliqué
Je viens de finir de développer un script PHP, pour générer du contenu à volonté sur la bases de multiples flux RSS que l’on choisi.

Ce qui m'interresse c'est comment tu brasses les flux en php, et puis tu as mis un cache sur ton site ?. Cela dit ton fichier est impossible à dézipper, tu peux pas changer ton format, c'est galère ?

merci
 
Nouveau WRInaute
dudo a dit:
Je viens de finir de développer un script PHP, pour générer du contenu à volonté sur la bases de multiples flux RSS que l’on choisi.

Ce qui m'interresse c'est comment tu brasses les flux en php, et puis tu as mis un cache sur ton site ?. Cela dit ton fichier est impossible à dézipper, tu peux pas changer ton format, c'est galère ?

merci

Les flux sont checker par Magpie, à une fréquence défini dans l'admin (ou par Crontab), et les flux sont archivé dans une base MySQL.

Pour ce qui est du zip, je vais mettre plusieurs format au plus vite.
Mais chez moi je fait directement "ouvrir" au lieu de "enregistrer" et ça marche.
 
WRInaute discret
Bon, ben après quelques tests, je dirai ceci :

:arrow: La vache, il arrache ton script pour fénéants !

C'est con, je peux pas faire part des pages où je fais le test (because c'est pour adultes)

Bon boulot
 
Nouveau WRInaute
Peut on voir ce que ça donne avec les sources et le résultat ?

Même si je n'aime pas du tout le principe :/
 
WRInaute discret
A tester avant de donner son avis. Et une reco, une ;)

J'avais déjà chercher ce genre de script mais je n'avais rien trouvé d'assez "automatique"
 
WRInaute accro
gastonB a dit:
En fait, je me demande si Google reconnaît le contenu des RSS et le référence ?

Google reconnait le contenu des RSS, le crawle et l'utilise pour indexer les pages web qui sont liées, mais ne l'indexe plus en tant que flux rss dans les pages de résultat.

Après les affaires Fuzz et autres, faut un certain courage pour se lancer dans ce genre d'automatisme.
 
WRInaute discret
melaniezette a dit:
Euh le site ne s'ouvre plus.... Dommage ça m'interessais bien cette histoire de générateur de contenu :?
Ah si ça y est en fait ça s'ouvre, faut tapper .com et pas _com...!!! :oops:
Bon on peut etre webmistress et blonde hein ! :lol:
 
WRInaute discret
Marie-Aude a dit:
gastonB a dit:
En fait, je me demande si Google reconnaît le contenu des RSS et le référence ?

Google reconnait le contenu des RSS, le crawle et l'utilise pour indexer les pages web qui sont liées, mais ne l'indexe plus en tant que flux rss dans les pages de résultat.

Après les affaires Fuzz et autres, faut un certain courage pour se lancer dans ce genre d'automatisme.

+100
J'ai fais un script dans le style pour tester il y a quelques mois, les 3 sites que j'ai fais pour les tests se sont fais recalés loin dans les résultats de Google et autres moteurs.

Il n y a que l'accueil qui se positionne comme tout site correctement référencé et les pages ayant du contenu agrégé sont dans une espace de back à sable.
 
Nouveau WRInaute
jongleur a dit:
bonjour,
Heu, GastonB, c'est lagaffe, je ne peu ni ouvrir ni charger le zip? :(
A+

C'est bon, j'ai résolu le problème.
Désolé, j'ai des problèmes de serveur en ce moment :?

N'hésite pas à me faire un retour quand tu l'aura testé :wink:
Qu'il soit positif ou négatif.
 
Nouveau WRInaute
Hello !
Une autre façon de créer du contenu pour vos sites Web : le mashup.
Un exemple : GreenIvory a développé MashupXpress, un outil pour dynamiser son site Web. Il va agréger des informations de sources diverses, pour ensuite filtrer puis publier leur contenu sur votre propre site Web.
Pour plus d'explications,c'est ici. Ca vous intéresse ?
 
WRInaute accro
Etnyk a dit:
Une autre façon de créer du contenu pour vos sites Web : le mashup.
c'est ça le web 3.0 ? le 2.0 on attendait que l'internaute crée le contenu et le 3.0, on va chercher automatiquement le contenu sur d'autres sites pour créer le sien, c'est bien ça ? :roll:
 
Nouveau WRInaute
Au sujet du Duplicate Content, je ne pense vraiment pas que Google soit capable de comparer chaque phrase d'un site avec l'ensemble du Web pour trouver du contenu dupliqué...
Si c'était le cas, un site comme secrets2moteurs n'aurait pas un PageRank de 5, tout en étant en très grande partie (voire entièrement) constitué de reprises d'autres articles.

Ringout > Comment l'as-tu testé ?
 
WRInaute discret
salut,
voici un exemple : https://www.google.fr/search?hl=fr&q=%22I+just+realized+I%27ve+been+blo ... =&aq=f&oq=
google a trouvé 247 sites qui contient cette phrase. déjà c'est une bonne nouvelle :D
en allant dans la deuxième page de recherche de google tu trouvera juste en bas la belle phrase :
Pour limiter les résultats aux pages les plus pertinentes (total : 10), Google a ignoré certaines pages à contenu similaire.
Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.
donc pour 247 sites trouver google na laissé que les gros sites avec du trustrank

twitter
adobe
technorati
...etc ...
les autres seront sanctionné automatiquement :wink:
 
Nouveau WRInaute
quentin123 a dit:
c'etait exactement ce que je cherchais il y a quelques mois , mais ca risque de m'être encore utile donc MERCI
De rien, moi qui avais peur de faire de la "pub" gratuite... J'espère que ca te sera utile !

johnny-57 a dit:
etnyk, est il possible de voir une démo de ta version ?
Désolé, j'ai un peu tardé à répondre...
Un exemple : sur la page d'accueil de GreenIvory, les rubrique "news" et "industry buzz"...
Le site Informix Mag fonctionne aussi avec MasupXFeed (version plus complète de MashupXpress)

Leonick a dit:
c'est ça le web 3.0 ? le 2.0 on attendait que l'internaute crée le contenu et le 3.0, on va chercher automatiquement le contenu sur d'autres sites pour créer le sien, c'est bien ça ? :roll:

MashupXpress n'est pas du vol de contenu : ça contribue à la richesse de ton site, et tant que tu ne récupère pas un article entier et que tu cites la source, il n'y a pas de problème.
De plus, ton site devient plus intéressant pour les internautes (doublement de la durée de visite constaté sur certains sites comme Neonova)...
 
WRInaute accro
Etnyk a dit:
MashupXpress n'est pas du vol de contenu : ça contribue à la richesse de ton site, et tant que tu ne récupère pas un article entier et que tu cites la source, il n'y a pas de problème.
la richesse de ton site à partir du contenu créé par d'autres. En plus, mettre le lien vers l'article d'origine avec comme ancre "ici" alors que le lien de la page d'accueil de greeniv... est fait avec comme ancre le titre de l'article et que l'url est créée, elle aussi, à partir du titre de l'article, c'est carrément plus que borderline.
Etnyk a dit:
De plus, ton site devient plus intéressant pour les internautes (doublement de la durée de visite constaté sur certains sites comme Neonova)...
au détriment du site dont les informations ont été récupérées illégalement
Et ne ressors pas l'excuse habituelle "oui, mais on envoie des visiteurs sur le site à l'origine de la news", car les url et ancres super optimisées ne sont pas là par hasard, mais pour se positionner sur ces requêtes là et essayer de récupérer des visiteurs qui auraient dû normalement aller sur le vrai site à l'origine de la news.

Regarde bien sur les sites où les infos sont pompées : tu verras que l'utilisation des flux rss ne peut être effectuée que pour un usage personnel et, surtout pas, pour créer ex nihilo du contenu pour un site :evil:
Au niveau droit d'auteur, tout ce qui n'est pas explicitement autorisé est interdit. C'est simple :wink:
 
WRInaute accro
Si on possède un site qui est repris par le système, j'espère qu'il est possible de demander le retrait du site en question (pour les raisons données par Leonick ci-dessus par exemple).
 
WRInaute accro
UsagiYojimbo a dit:
Si on possède un site qui est repris par le système, j'espère qu'il est possible de demander le retrait du site en question (pour les raisons données par Leonick ci-dessus par exemple).
oui, en faisant un référé au TGI. Car là, il n'y a aucunement besoin de rappeler au webmaster qu'il savait pertinemment ne pas respecter la loi. :evil:
 
Nouveau WRInaute
Leonick a dit:
En plus, mettre le lien vers l'article d'origine avec comme ancre "ici" alors que le lien de la page d'accueil de greeniv... est fait avec comme ancre le titre de l'article et que l'url est créée, elle aussi, à partir du titre de l'article, c'est carrément plus que borderline.
En quoi est-ce "borderline" de bien concevoir son site ?

Leonick a dit:
au détriment du site dont les informations ont été récupérées illégalement
Et ne ressors pas l'excuse habituelle "oui, mais on envoie des visiteurs sur le site à l'origine de la news", car les url et ancres super optimisées ne sont pas là par hasard, mais pour se positionner sur ces requêtes là et essayer de récupérer des visiteurs qui auraient dû normalement aller sur le vrai site à l'origine de la news.
Je vais prendre un exemple : le site Secrets2moteurs. Un internaute qui trouve ce site suite à une requête ne s'arrête pas à l'extrait d'article proposé, il va voir le contenu en entier ! N'est-ce pas une manière de lui ramener le trafic auquel il a droit ?

Leonick a dit:
Regarde bien sur les sites où les infos sont pompées : tu verras que l'utilisation des flux rss ne peut être effectuée que pour un usage personnel et, surtout pas, pour créer ex nihilo du contenu pour un site :evil:
Au niveau droit d'auteur, tout ce qui n'est pas explicitement autorisé est interdit. C'est simple :wink:
... à l'exception des courtes citations ! Pour plus d'infos, voir cet article...

Tout dépend donc de l'usage que fait le webmaster de MashupXpress.
 
WRInaute accro
Voilà l'une des raisons pour laquelle je ne diffuse que des flux RSS courts...


Le genre de truc qui me fait bondir.
 
WRInaute accro
Etnyk a dit:
N'est-ce pas une manière de lui ramener le trafic auquel il a droit ?
le meilleur moyen de lui ramener du trafic serait simplement de ne pas lui en piquer, avec son propre contenu
Leonick a dit:
... à l'exception des courtes citations ! Pour plus d'infos, voir cet article...
article que, visiblement, tu n'as pas lu ou pas compris.
C'est explicitement marqué que ce type de vol de contenu est absolument interdit sans une autorisation explicite de l'auteur initial.
les-infostrateges a dit:
Le simple agencement d'un ensemble de courtes citations n'est pas librement permis ; il s'agit dans ce cas d'une anthologie, entrant dans la catégorie des oeuvres dérivées, supposant l'accord des auteurs des oeuvres empruntées.
et c'est pourtant ce que font les mashup :twisted:
 
Discussions similaires
Haut