Outil de vérification de plagiat ou de duplication de contenu (duplicate content)

WRInaute accro
Salut à tous,

Alors, je viens de terminer un petit outil qui va vous permettre de vérifier s'il existe une page dupliquée pour un texte ou une page de votre site. J'ai utilisé l'API Search que nous met à disposition Google et j'aimerais quelques feedbacks pour l'améliorer encore si possible :)

Madrileno m'a déjà fait quelques feedbacks et à joué le rôle de bêta testeur, merci à lui ! :)

Au programme:

- Choix entre un texte ou une url en entrée.
- L'outil parcourt votre site à la recherche de contenu.
- L'outil scinde le texte fournit ou le texte récolté depuis votre site en morceaux pour effectuer plusieurs recherches sur google, ce qui améliore la detection.
- Gestion des sites encodés en UTF-8, ISO...
- Liens directs vers les tests effectués disponibles que vous pouvez ajouter en favoris.
- Groupe les résultats des multiples recherches google qui possèdent la même adresse.
- Affiche le pourcentage de mots clés reconnus par google comme dupliqués (en gras)
- Aperçu instantané d'un plagiat (fond et encadré en rouge (>=50%) ou vert (<50%) )
- Suivi des redirections 301 en cas de test sur une URL ne renvoyant pas un code 200. (Max 3 redirections)

Pour l'utilisation, vous pouvez afficher le mode d'emploi facilement. Sinon c'est rapide, vous entrez soit un texte, soit l'url d'une page à tester et c'est parti! . Exemple avec WRI qui a pas mal de DC :mrgreen: :

wri-1e9bc1c.png


:arrow: Voila l'outil de vérification de duplicate content. Qu'en pensez-vous ? :oops: N'hésitez pas à reporter les éventuels bugs que vous trouverez ou améliorations possibles :)

Si vous apercevez votre site dans les résultats de l'outil, n'ayez pas peur, c'est normal :p. Je l'ai juste laissé à titre d'indication, je trouve plutôt normal de trouver les résultats de son site en premier sur google quand on fait une recherche. Et si vous ne voyez pas 100% pour votre site, c'est normal aussi :)

NB: Si vous avez déjà visité positeo.com auparavant, n'oubliez pas de vider votre cache :) CTRL + F5 !
 
WRInaute accro
YoyoS a dit:
Madrileno m'a déjà fait quelques feedbacks et à joué le rôle de bêta testeur, merci à lui ! :)
Il est vraiment partout ce Madri. Quand il n'est pas là cela se ressens et quand il est là cela se ressens aussi. :mrgreen:

Ca à l'air sympa tout ça. Je check dans la journée et te ferai un retour ;)
 
Membre Honoré
YoyoS c'est un outil qui va aider pas mal de personnes, félicitations. :wink:
L.Jee a dit:
YoyoS a dit:
Madrileno m'a déjà fait quelques feedbacks et à joué le rôle de bêta testeur, merci à lui ! :)
Il est vraiment partout ce Madri. Quand il n'est pas là cela se ressens et quand il est là cela se ressens aussi. :mrgreen:
Merci à vous deux. ;)
 
WRInaute impliqué
C'est quoi le % de copie?
Parce que ca peut faire peur de voir plus de 80% de contenu dupliqué alors qu'on reprend 3 phrases d'un flux RSS dans une page...

Pour moi c'est pas encore totalement au point par rapport à la référence copyscape
 
WRInaute accro
@carole, j'avais pensé à faire l'outil bien avant les 3 topics (qui est une brique de mon prochain projet, demande a madri ^^) :) Et je n'ai pas du tout utilisé le script de Zeb dont je trouve la méthode pas super bonne. Ces topics sont une pure coïncidence. La méthode de calcul sur le taux de mots en gras était la seule méthode à utiliser vu que c'est celle qui se rapporte le plus à une méthode de vérification manuelle... Je veux bien aider quelqu'un qui se casse la tête à réaliser un script mais lui donner une application terminée tout cuit dans le bec, faut pas pousser :mrgreen: Tu aimerais que je montre le code qui gère les mots en gras et calcule le pourcentage alors ? Mais pas tout le script quand même !

@Bigb06. Pour chaque résultat de recherche google, google met en gras un certain nombre de mots. C'est le pourcentage de mots en gras par rapport au snippet entier ! Et je trouve les mêmes résultats que copyscape, donc ca me semble être bon ? Qu'as-tu testé qui ne te semble pas correct ?
 
WRInaute passionné
YoyoS a dit:
@carole, j'avais pensé à faire l'outil bien avant les 3 topics (qui est une brique de mon prochain projet, demande a madri ^^) :) Et je n'ai pas du tout utilisé le script de Zeb dont je trouve la méthode pas super bonne. Ces topics sont une pure coïncidence

il ne s'agit pas de 3 topics mais d'un seul et unique topic (les 3 liens sont des liens vers 3 posts de ce topic).
non mais je vais pas t'embêter hein, peu importe.

par contre tu devrais quand même mettre à disposition une API ou quelque chose, pour l'instant ce n'est pas super pratique à utiliser; pour un annuairiste par exemple ton outil n'apporte rien, entre copier-coller la description à tester dans ton outil, ou directement dans google, je préfère encore directement copier-coller dans google (ou mieux: sélection > clic-droit > rechercher dans google ): plus rapide, plus pratique, plus transparent et surtout je ne "donne" pas mes descriptions à un "privé" (mode parano: on ne sait jamais vraiment ce que font tous ces outils de positionnement, antiDC etc avec toutes les données intéressantes qu'ils récoltent...)

donc sauf à donner la source (pour implémenter la même chose sur nos annuaires / sites de CP) ou à créer une API, je ne pense pas que cet outil nous soit très utile.
 
WRInaute accro
L'avantage de l'outil c'est qu'on peut y coller un texte entier qui peut etre trop grand pour être collé dans Google directement. (Google limite à 32mots la recherche)
 
WRInaute accro
carole heinz a dit:
Par contre tu devrais quand même mettre à disposition une API ou quelque chose, pour l'instant ce n'est pas super pratique à utiliser; pour un annuairiste par exemple ton outil n'apporte rien, entre copier-coller la description à tester dans ton outil, ou directement dans google, je préfère encore directement copier-coller dans google (ou mieux: sélection > clic-droit > rechercher dans google ): plus rapide, plus pratique, plus transparent et surtout je ne "donne" pas mes descriptions à un "privé" (mode parano: on ne sait jamais vraiment ce que font tous ces outils de positionnement, antiDC etc avec toutes les données intéressantes qu'ils récoltent...)

donc sauf à donner la source (pour implémenter la même chose sur nos annuaires / sites de CP) ou à créer une API, je ne pense pas que cet outil nous soit très utile.

Un peut les même remarques, l'outils est très propre mais pas utile en l'état et la limitation a 32 mots ne constitue pas un problème dans la mesure ou google limite la requête et fourni un résultat visible de suite.
Qui plus est ce genre d'outil ne présente d'intérêt que pour des webmaster donc l'impact est super limité.

Sinon c'est super propre et bien fait. On peut juste reprocher qu'il n'y ai pas un mode de réponse oui / non tout simple car c'est surtout ça qui compte.
 
WRInaute accro
J'ai eu le cas ou google ne trouvait pas le contenu duppliqué car il se trouvait à l'intérieur du texte après les 32 premiers mots. Ici vu que le texte est coupé en morceaux et que plusieurs requêtes sont faites, l'analyse est plus fine et google trouve plus de choses !

Sinon les résultats sont classés par ordre de pourcentage décroissant. Donc si le premier n'est pas rouge, c'est bon :D
 
WRInaute impliqué
l'outil est bien présenté et clair mais ce serait cool que ce ne soit pas qu'un outil de diagnostic. Je fais quoi ensuite quand je sais que mon contenu est dupliqué à 80% ? Je panique ? Ou je panique uniquement à partir de 95% ? Et quand c'est une page interne à mon site qui sort, y'a un risque ? Il manque pas grand chose pour que ce soit un super outil pour les webmasters. En tous les cas je l'ai mis en signet pour voir la suite.
 
WRInaute discret
je ne voudrais pas jouer les perturbateurs mais il y a un outil très efficace et particulièrement pertinent dans ce domaine :

copyscape

Cela étant je félicite aussi cette initiative on a jamais de trop d'outil qui permettent de retrouver des plagistes
 
WRInaute passionné
Copyscape ? Pertinent ?
Y'a quand même moyen de faire beaucoup beaucoup mieux en termes de qualité de détection.
 
WRInaute accro
@dop20vt : Si ta page est trouvée en + de 50%, tu vérifies manuellement :) J'ai laissé le site source pour information, mais j'aurais très bien pu filtrer les résultats concernant le site inséré. Et le pourcentage correspond à ce que google à mis en gras par rapport à tous les mots dans un même snippet. Donc c'est après avoir coupé ton contenu en morceaux et fait quelques recherches google avec qu'il a trouvé cela. Sache aussi que je filtre beaucoup le contenu avant de le couper. Il peut donc manquer des choses que je n'ai pas voulu utiliser dans la recherche google. J'ai préféré les phrases longues, le texte pure.

@vincentdezone : Ce que tu fais après ? Bah tu contactes le webmaster pour faire virer le contenu plagié ^^. Au dessus de 50% tu vois clairement des phrases entières copiées, donc tu peux te poser des questions et vérifier le site manuellement

@labelandco : Je n'aime pas trop copyscape. Je le connaissais mais jamais utilisé et j'avais souvent peu de résultats. Il fait surement qu'une seule recherche google. J'avoue que j'ai surtout fait mon outil pour faire un algo que je réutiliserai plus tard pour autre chose :).

Est-ce qu'un modo pourrait rajouter ceci dans le post initial ? Je ne peux plus l'éditer :
" Si vous apercevez votre site dans les résultats de l'outil, n'ayez pas peur, c'est normal :p. Je l'ai juste laissé à titre d'indication, je trouve plutôt normal de trouver les résultats de son site en premier sur google quand on fait une recherche. Et si vous ne voyez pas 100% pour votre site, c'est normal aussi :) "
On m'a mp pour clarifier ce point justement :)
 
WRInaute accro
Pour utiliser intensément copyscape, j'en suis plutôt contente, et je pense qu'il fait nettement plus qu'une seule requete (ou alors il fonctionne différemment, car j'ai l'impression d'une forte collaboration avec Google). Il est par ailleurs possible de définir dans une page les parties de textes qui ne seront pas prises en compte pour la recherche.

Cela dit, ayant testé, sur une page fortement dupliquée (en tout cas c'est ce que m'indique copyscape, avec 13 url) je vois 68% de contenu dupliqué, mais pas une seule url ? (Firefox, dernière version, windows7)
 
WRInaute accro
dop20vt a dit:
Il donne un pourcentage aussi copyscape ??

Oui

The page below has 510 words matching 37% of the page, as highlighted below:

NB : suffit de tester :mrgreen:

Il permet aussi d'enregistrer chaque cas pour faire un suivi. Bref c'est un bon outil, à mon avis pas très cher, et avec une API correcte.
 
WRInaute accro
Toi qui utilise beaucoup copyscape, que penses-tu de l'outil que je propose ? De grosses différences de résultats ? Hésite pas à critiquer hein :)
 
WRInaute accro
:) Comme je te l'ai dit (mais je ne suis peut être pas claire), je n'ai pas la liste des pages qui copient mon url.... ça bloque un peu ^^
 
WRInaute accro
Tu peux m'envoyer en détails par mp ce que tu as fait afin que j'améliore ça ? :) Tu veux dire que tu as eu une grosse différence entre les résultats copyscape et positeo ? Sinon j'affiche à chaque fois le lien de la page qui copie non ?
 
Olivier Duffez (admin)
Membre du personnel
Les pourcentages indiqués sont mal expliqués je trouve, autant éviter de parler de pourcentage et parler d'un indice.
Car donner autre chose que 100% pour la page elle-même, ça ne crédibilise pas vraiment l'outil

Par ailleurs tu ne sembles pas bien préciser quelles requêtes tu fais, pourrais-tu donner des explications ?

Les liens vers les résultats ne semblent pas marcher (j'ai droit à une redirection). Cela dit j'espère que tu ne les fais pas indexer

Merci pour l'outil
 
WRInaute accro
Salut olivier, alors oui les pourcentages sont en rapport avec ce que Google fournit, donc oui, au niveau de la compréhension, j'ai des choses à changer.

Au niveau des requêtes, je coupe en fait le texte au mot prêt après un certain nombre de caractères. par exemple une page contient 2000caractères, 2000/300 = 7 (arrondi au dessus). Je coupe donc le texte en 7 morceaux et fait 7 requêtes avec l'api Google.

Non je n'indexe pas les liens vers les résultats. Normalement tout est en redirection 301 vers l'index de l'outil. Si cela ne fonctionne pas, je regarderai ça en détail.
 
WRInaute accro
Et beh c'est bien ma veine y a une limite du nombre de requêtes avec l'API Google ... Vous étonnez pas si vous avez un beau message "Quota Exceeded" :p

Je verrai pour arranger ça après les exams. Si des gens ont aussi des propositions à faire ... :) Au pire je passerai par un jeu de proxies.
 
Discussions similaires
Haut