Content spinning avec des bouts de phrase et non des synonymes

WRInaute discret
Hello ! j'aimerais savoir si ici, il y a des gens qui ont déjà développé des outils de content spinning.

Je suis en train de développer le mien. Au contraire de ce qu'il existe actuellement, ce n'est pas une transformation par synonymes. Certains mots si mais pour que ce soit réellement efficace, c'est les phrases que je change en rajoutant des mots.

Je fais ça en javascript. Je change totalement des bouts de phrase que je trouve quand je lis des articles. Je fais ça au fur et à mesure que je tombe sur une page. Exemple :

["eu l'opportunité", "eu l'immense joie"]
["point important", "point qui a aussi son importance"]
["Récemment", "Il n’y a pas si longtemps"]
["ne pas oublier les", "ne surtout pas faire abstraction des"]

Bon ! c'est un travail long et fastidieux. J'en suis à plus de 5000 lignes dans le js mais ma question en gros, c'est de savoir si certains d'entre vous ont déjà voulu faire une chose comme ça et si ça peut passer entre les mailles du filet du gros GOOGLE.

Et si au niveau juridique (Si un jour, je le termine) ça peut être un problème de pomper et transformer totalement un article ? car le contenu change oui mais la vision de l'auteur reste la même.
 
WRInaute accro
ça existe depuis longtemps :) et même dans les outils qui parlent de "synonyme" le dictionnaire n'a jamais empêcher de faire ça.

que ce soit des mots ou des bouts de phrases toute la question est dans la profondeur du spin

Par ailleurs, tu vas sortir des textes qui "sentent le spin à plein nez" avec ce type de permutation, en rajoutant des mots "pour rien", donc totalement contraire à l'esprit de l'écriture web.

--

Jeune Padawan ignore les nombreux outils déjà existant, comme celui de Christian Meline, ou n'a pas eu l'illumination que "synonyme" n'était pas limité à un mot ?

Le point essentiel est ailleurs : avoir suffisamment de cas et de niveaux d'imbrication pour faire des textes réellement différents. Sinon, tu ressortiras des textes avec des bouts de phrases répétitifs, ça se verra même encore plus.

Enfin, faire attention à la lisibilité... c'est aujourd'hui un critère pris en compte par Google.
 
WRInaute accro
Je fais ça en javascript. Je change totalement des bouts de phrase que je trouve quand je lis des articles. Je fais ça au fur et à mesure que je tombe sur une page.

Tu te fatigue pour rien , ca existe déjà.... ca sert a rien de réinventer la roue..
 
WRInaute discret
Furtif a dit:
Ca existe déjà. ça sert a rien de réinventer la roue..

Il ne s'agit pas de réinventer la roue. Des milliers de ligne = des tournures de phrases différentes qui viennent de ma tête et non d'un autre outil donc en soit, l'outil est unique car il y a des millions de possibilités. De plus, il est juste pour moi. Je ne compte pas (si je le termine un jour...) le rendre accessible.

outils déjà existant, comme celui de Christian Meline

Oui en effet, je viens de le voir, je ne connaissais pas. Merci maître Yoda ! :)

tu vas sortir des textes qui "sentent le spin à plein nez"

Je ne suis pas sur enfin ce que je veux dire, c'est que mot à mot, je cours à la catastrophe c'est vrai, mais dans le cas présent avec des ajouts manuels pour permuter, ça devrait passer dans le sens où de toute façon tous les rédacteurs, journalistes ont des espèces de "tiques" quand ils rédigent un article. Par exemple, certains blogueurs emploient régulièrement les mêmes phrases du genre "Dans cet article", "je vous propose" etc etc...

En définitif, y a bien un quart du contenu qui revient régulièrement.
 
WRInaute accro
h22o a dit:
Des milliers de ligne = des tournures de phrases différentes qui viennent de ma tête et non d'un autre outil donc en soit, l'outil est unique car il y a des millions de possibilités.
Confondre "outil" et "dictionnaire" tu sembles, jeune Padawan.

Même sur un outil hyper basique comme Magic Article Rewriting tu peux te créer un dictionnaire qui intègre des phrases et "tes propres phrases".

Investir du temps sur le dictionnaire, pas sur l'outil, est mon conseil ^^
 
WRInaute accro
h22o a dit:
Bon ! c'est un travail long et fastidieux. J'en suis à plus de 5000 lignes
Je te donne des chiffres pour que tu comprenne la complexité du truc.

Sur un simple corpus de 50 000 mots uniques français tu as 450 000 synonymes et 75 000 antonymes (la négation d'un antonyme est aussi un synonyme).
Ensuite tu as ce qu'on appel les locutions qui peuvent remplacer des mots simples là wiki par exemple en a environ 30 000.

ça c'est pour de l'algo type "dictionnaire" c'est "simplet" pas du tout digeste a lire car il faut vérifier si les permutations sont déjà acceptable (en effet tout les mots ne peuvent prendre un remplacement avec un synonyme).

Viens ensuite se greffer la dessus le souci de la conjugaison. par exemple ton exemple ["eu l'opportunité", "eu l'immense joie"] c'est en fait ["avoir l'opportunité", "avoir l'immense joie"] bien que au final l'exemple soit mal choisi car la signification n'a rien a voir sauf dans des contextes très rares. Les Verbes courants et leur déclinaisons dans les temps possible c'est environ 100 000 variations ;-)

A ce stade tu vois se profiler un souci important il faut identifier des groupes de mots effectivement mais aussi savoir leur temps pour proposer un remplacement possible et la bonjour la galère car tu va tomber sur des cas ambigus en pagaille. Et si tu veux que cela soit propre tu tombe direct dans l'analyse grammaticale et lemmatique où même les pros ont du mal (y compris google soit dit en passant).

Une solution intermédiaire c'est de réaliser un outil d'aide au choix de synonyme, c'est perso ce que j'utilise dans tinymce. Mais imaginer partir d'un texte pour produire des master spinn de haut niveau c'est une autre histoire ...

Je fais ça en javascript
Perso j'ai environ 500 méga de data pure sur la langue française rien que pour définir tout ce qui est possible (nom, prénoms, verbes, prépositons, pays, locutions, acronymes, etc...) bref faut penser autrement que javascript car tu va soit manipuler du fichier soit de la base de données :wink: L'inteface en html js pourquoi pas mais c'est la couche arable de l'écorce terrestre.
 
Nouveau WRInaute
p0k3 a dit:
Des gens utilisent encore du content spinning ?

Mais bien sûr. Tu connais une meilleure méthode pour produire, à moins de 1.000 €, des milliers d'articles parfaitement lisibles, avec très peu de fautes, sur la même thématique et avec un niveau de similarité maximum de 15% ?

Les méthodes de content-spinning ont évolué depuis 2010. Et couplé à du TAL c'est imparable.
 
Discussions similaires
Haut