Outil de vérification de plagiat ou de duplication de contenu (duplicate content)

Discussion dans 'Demandes d'avis et de conseils sur vos sites' créé par YoyoS, 24 Juillet 2010.

  1. YoyoS
    YoyoS WRInaute accro
    Inscrit:
    14 Septembre 2006
    Messages:
    3 249
    J'aime reçus:
    0
    Salut à tous,

    Alors, je viens de terminer un petit outil qui va vous permettre de vérifier s'il existe une page dupliquée pour un texte ou une page de votre site. J'ai utilisé l'API Search que nous met à disposition Google et j'aimerais quelques feedbacks pour l'améliorer encore si possible :)

    Madrileno m'a déjà fait quelques feedbacks et à joué le rôle de bêta testeur, merci à lui ! :)

    Au programme:

    - Choix entre un texte ou une url en entrée.
    - L'outil parcourt votre site à la recherche de contenu.
    - L'outil scinde le texte fournit ou le texte récolté depuis votre site en morceaux pour effectuer plusieurs recherches sur google, ce qui améliore la detection.
    - Gestion des sites encodés en UTF-8, ISO...
    - Liens directs vers les tests effectués disponibles que vous pouvez ajouter en favoris.
    - Groupe les résultats des multiples recherches google qui possèdent la même adresse.
    - Affiche le pourcentage de mots clés reconnus par google comme dupliqués (en gras)
    - Aperçu instantané d'un plagiat (fond et encadré en rouge (>=50%) ou vert (<50%) )
    - Suivi des redirections 301 en cas de test sur une URL ne renvoyant pas un code 200. (Max 3 redirections)

    Pour l'utilisation, vous pouvez afficher le mode d'emploi facilement. Sinon c'est rapide, vous entrez soit un texte, soit l'url d'une page à tester et c'est parti! . Exemple avec WRI qui a pas mal de DC :mrgreen: :

    [​IMG]

    :arrow: Voila l'outil de vérification de duplicate content. Qu'en pensez-vous ? :oops: N'hésitez pas à reporter les éventuels bugs que vous trouverez ou améliorations possibles :)

    Si vous apercevez votre site dans les résultats de l'outil, n'ayez pas peur, c'est normal :p. Je l'ai juste laissé à titre d'indication, je trouve plutôt normal de trouver les résultats de son site en premier sur google quand on fait une recherche. Et si vous ne voyez pas 100% pour votre site, c'est normal aussi :)

    NB: Si vous avez déjà visité positeo.com auparavant, n'oubliez pas de vider votre cache :) CTRL + F5 !
     
  2. L.Jee
    L.Jee WRInaute accro
    Inscrit:
    11 Décembre 2007
    Messages:
    5 432
    J'aime reçus:
    4
    Il est vraiment partout ce Madri. Quand il n'est pas là cela se ressens et quand il est là cela se ressens aussi. :mrgreen:

    Ca à l'air sympa tout ça. Je check dans la journée et te ferai un retour ;)
     
  3. carole heinz
    carole heinz WRInaute passionné
    Inscrit:
    28 Février 2007
    Messages:
    2 439
    J'aime reçus:
    0
  4. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 079
    J'aime reçus:
    282
    YoyoS c'est un outil qui va aider pas mal de personnes, félicitations. :wink:
    Merci à vous deux. ;)
     
  5. Bigb06
    Bigb06 WRInaute impliqué
    Inscrit:
    21 Mars 2007
    Messages:
    842
    J'aime reçus:
    1
    C'est quoi le % de copie?
    Parce que ca peut faire peur de voir plus de 80% de contenu dupliqué alors qu'on reprend 3 phrases d'un flux RSS dans une page...

    Pour moi c'est pas encore totalement au point par rapport à la référence copyscape
     
  6. YoyoS
    YoyoS WRInaute accro
    Inscrit:
    14 Septembre 2006
    Messages:
    3 249
    J'aime reçus:
    0
    @carole, j'avais pensé à faire l'outil bien avant les 3 topics (qui est une brique de mon prochain projet, demande a madri ^^) :) Et je n'ai pas du tout utilisé le script de Zeb dont je trouve la méthode pas super bonne. Ces topics sont une pure coïncidence. La méthode de calcul sur le taux de mots en gras était la seule méthode à utiliser vu que c'est celle qui se rapporte le plus à une méthode de vérification manuelle... Je veux bien aider quelqu'un qui se casse la tête à réaliser un script mais lui donner une application terminée tout cuit dans le bec, faut pas pousser :mrgreen: Tu aimerais que je montre le code qui gère les mots en gras et calcule le pourcentage alors ? Mais pas tout le script quand même !

    @Bigb06. Pour chaque résultat de recherche google, google met en gras un certain nombre de mots. C'est le pourcentage de mots en gras par rapport au snippet entier ! Et je trouve les mêmes résultats que copyscape, donc ca me semble être bon ? Qu'as-tu testé qui ne te semble pas correct ?
     
  7. carole heinz
    carole heinz WRInaute passionné
    Inscrit:
    28 Février 2007
    Messages:
    2 439
    J'aime reçus:
    0
    il ne s'agit pas de 3 topics mais d'un seul et unique topic (les 3 liens sont des liens vers 3 posts de ce topic).
    non mais je vais pas t'embêter hein, peu importe.

    par contre tu devrais quand même mettre à disposition une API ou quelque chose, pour l'instant ce n'est pas super pratique à utiliser; pour un annuairiste par exemple ton outil n'apporte rien, entre copier-coller la description à tester dans ton outil, ou directement dans google, je préfère encore directement copier-coller dans google (ou mieux: sélection > clic-droit > rechercher dans google ): plus rapide, plus pratique, plus transparent et surtout je ne "donne" pas mes descriptions à un "privé" (mode parano: on ne sait jamais vraiment ce que font tous ces outils de positionnement, antiDC etc avec toutes les données intéressantes qu'ils récoltent...)

    donc sauf à donner la source (pour implémenter la même chose sur nos annuaires / sites de CP) ou à créer une API, je ne pense pas que cet outil nous soit très utile.
     
  8. YoyoS
    YoyoS WRInaute accro
    Inscrit:
    14 Septembre 2006
    Messages:
    3 249
    J'aime reçus:
    0
    L'avantage de l'outil c'est qu'on peut y coller un texte entier qui peut etre trop grand pour être collé dans Google directement. (Google limite à 32mots la recherche)
     
  9. L.Jee
    L.Jee WRInaute accro
    Inscrit:
    11 Décembre 2007
    Messages:
    5 432
    J'aime reçus:
    4
    Encore plus vite tu fais Ctrl+c, Ctrl+t, Ctrl+v ;)
     
  10. Zikou
    Zikou WRInaute discret
    Inscrit:
    11 Août 2008
    Messages:
    191
    J'aime reçus:
    0
    Salut,
    trés bien et trés clair, sympa le rouge et le vert...
     
  11. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 187
    J'aime reçus:
    1
    Un peut les même remarques, l'outils est très propre mais pas utile en l'état et la limitation a 32 mots ne constitue pas un problème dans la mesure ou google limite la requête et fourni un résultat visible de suite.
    Qui plus est ce genre d'outil ne présente d'intérêt que pour des webmaster donc l'impact est super limité.

    Sinon c'est super propre et bien fait. On peut juste reprocher qu'il n'y ai pas un mode de réponse oui / non tout simple car c'est surtout ça qui compte.
     
  12. YoyoS
    YoyoS WRInaute accro
    Inscrit:
    14 Septembre 2006
    Messages:
    3 249
    J'aime reçus:
    0
    J'ai eu le cas ou google ne trouvait pas le contenu duppliqué car il se trouvait à l'intérieur du texte après les 32 premiers mots. Ici vu que le texte est coupé en morceaux et que plusieurs requêtes sont faites, l'analyse est plus fine et google trouve plus de choses !

    Sinon les résultats sont classés par ordre de pourcentage décroissant. Donc si le premier n'est pas rouge, c'est bon :D
     
  13. dop20vt
    dop20vt WRInaute occasionnel
    Inscrit:
    23 Juin 2007
    Messages:
    458
    J'aime reçus:
    0
  14. vincentdezone
    vincentdezone WRInaute impliqué
    Inscrit:
    2 Janvier 2009
    Messages:
    779
    J'aime reçus:
    0
    l'outil est bien présenté et clair mais ce serait cool que ce ne soit pas qu'un outil de diagnostic. Je fais quoi ensuite quand je sais que mon contenu est dupliqué à 80% ? Je panique ? Ou je panique uniquement à partir de 95% ? Et quand c'est une page interne à mon site qui sort, y'a un risque ? Il manque pas grand chose pour que ce soit un super outil pour les webmasters. En tous les cas je l'ai mis en signet pour voir la suite.
     
  15. labelandco
    labelandco WRInaute discret
    Inscrit:
    28 Février 2010
    Messages:
    97
    J'aime reçus:
    0
    je ne voudrais pas jouer les perturbateurs mais il y a un outil très efficace et particulièrement pertinent dans ce domaine :

    copyscape

    Cela étant je félicite aussi cette initiative on a jamais de trop d'outil qui permettent de retrouver des plagistes
     
  16. u8086
    u8086 WRInaute passionné
    Inscrit:
    24 Mai 2004
    Messages:
    2 446
    J'aime reçus:
    0
    Copyscape ? Pertinent ?
    Y'a quand même moyen de faire beaucoup beaucoup mieux en termes de qualité de détection.
     
  17. lafleur2004
    lafleur2004 WRInaute passionné
    Inscrit:
    8 Avril 2004
    Messages:
    1 384
    J'aime reçus:
    0
    Surtout à la mer, quand on crève de soif et qu'il n'y a pas un plagiaire en vue !

    :lol: :lol: :lol:
     
  18. dop20vt
    dop20vt WRInaute occasionnel
    Inscrit:
    23 Juin 2007
    Messages:
    458
    J'aime reçus:
    0
    :lol:
     
  19. YoyoS
    YoyoS WRInaute accro
    Inscrit:
    14 Septembre 2006
    Messages:
    3 249
    J'aime reçus:
    0
    @dop20vt : Si ta page est trouvée en + de 50%, tu vérifies manuellement :) J'ai laissé le site source pour information, mais j'aurais très bien pu filtrer les résultats concernant le site inséré. Et le pourcentage correspond à ce que google à mis en gras par rapport à tous les mots dans un même snippet. Donc c'est après avoir coupé ton contenu en morceaux et fait quelques recherches google avec qu'il a trouvé cela. Sache aussi que je filtre beaucoup le contenu avant de le couper. Il peut donc manquer des choses que je n'ai pas voulu utiliser dans la recherche google. J'ai préféré les phrases longues, le texte pure.

    @vincentdezone : Ce que tu fais après ? Bah tu contactes le webmaster pour faire virer le contenu plagié ^^. Au dessus de 50% tu vois clairement des phrases entières copiées, donc tu peux te poser des questions et vérifier le site manuellement

    @labelandco : Je n'aime pas trop copyscape. Je le connaissais mais jamais utilisé et j'avais souvent peu de résultats. Il fait surement qu'une seule recherche google. J'avoue que j'ai surtout fait mon outil pour faire un algo que je réutiliserai plus tard pour autre chose :).

    Est-ce qu'un modo pourrait rajouter ceci dans le post initial ? Je ne peux plus l'éditer :
    " Si vous apercevez votre site dans les résultats de l'outil, n'ayez pas peur, c'est normal :p. Je l'ai juste laissé à titre d'indication, je trouve plutôt normal de trouver les résultats de son site en premier sur google quand on fait une recherche. Et si vous ne voyez pas 100% pour votre site, c'est normal aussi :) "
    On m'a mp pour clarifier ce point justement :)
     
  20. labelandco
    labelandco WRInaute discret
    Inscrit:
    28 Février 2010
    Messages:
    97
    J'aime reçus:
    0
    aaarrrfff faut que j'arrête l'eau du robinet :oops:

    :lol:
     
  21. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 361
    J'aime reçus:
    2
    Pour utiliser intensément copyscape, j'en suis plutôt contente, et je pense qu'il fait nettement plus qu'une seule requete (ou alors il fonctionne différemment, car j'ai l'impression d'une forte collaboration avec Google). Il est par ailleurs possible de définir dans une page les parties de textes qui ne seront pas prises en compte pour la recherche.

    Cela dit, ayant testé, sur une page fortement dupliquée (en tout cas c'est ce que m'indique copyscape, avec 13 url) je vois 68% de contenu dupliqué, mais pas une seule url ? (Firefox, dernière version, windows7)
     
  22. dop20vt
    dop20vt WRInaute occasionnel
    Inscrit:
    23 Juin 2007
    Messages:
    458
    J'aime reçus:
    0
    Il donne un pourcentage aussi copyscape ??
     
  23. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 361
    J'aime reçus:
    2
    Oui

    NB : suffit de tester :mrgreen:

    Il permet aussi d'enregistrer chaque cas pour faire un suivi. Bref c'est un bon outil, à mon avis pas très cher, et avec une API correcte.
     
  24. YoyoS
    YoyoS WRInaute accro
    Inscrit:
    14 Septembre 2006
    Messages:
    3 249
    J'aime reçus:
    0
    Toi qui utilise beaucoup copyscape, que penses-tu de l'outil que je propose ? De grosses différences de résultats ? Hésite pas à critiquer hein :)
     
  25. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 361
    J'aime reçus:
    2
    :) Comme je te l'ai dit (mais je ne suis peut être pas claire), je n'ai pas la liste des pages qui copient mon url.... ça bloque un peu ^^
     
  26. YoyoS
    YoyoS WRInaute accro
    Inscrit:
    14 Septembre 2006
    Messages:
    3 249
    J'aime reçus:
    0
    Tu peux m'envoyer en détails par mp ce que tu as fait afin que j'améliore ça ? :) Tu veux dire que tu as eu une grosse différence entre les résultats copyscape et positeo ? Sinon j'affiche à chaque fois le lien de la page qui copie non ?
     
  27. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 119
    J'aime reçus:
    549
    Les pourcentages indiqués sont mal expliqués je trouve, autant éviter de parler de pourcentage et parler d'un indice.
    Car donner autre chose que 100% pour la page elle-même, ça ne crédibilise pas vraiment l'outil

    Par ailleurs tu ne sembles pas bien préciser quelles requêtes tu fais, pourrais-tu donner des explications ?

    Les liens vers les résultats ne semblent pas marcher (j'ai droit à une redirection). Cela dit j'espère que tu ne les fais pas indexer

    Merci pour l'outil
     
  28. YoyoS
    YoyoS WRInaute accro
    Inscrit:
    14 Septembre 2006
    Messages:
    3 249
    J'aime reçus:
    0
    Salut olivier, alors oui les pourcentages sont en rapport avec ce que Google fournit, donc oui, au niveau de la compréhension, j'ai des choses à changer.

    Au niveau des requêtes, je coupe en fait le texte au mot prêt après un certain nombre de caractères. par exemple une page contient 2000caractères, 2000/300 = 7 (arrondi au dessus). Je coupe donc le texte en 7 morceaux et fait 7 requêtes avec l'api Google.

    Non je n'indexe pas les liens vers les résultats. Normalement tout est en redirection 301 vers l'index de l'outil. Si cela ne fonctionne pas, je regarderai ça en détail.
     
  29. YoyoS
    YoyoS WRInaute accro
    Inscrit:
    14 Septembre 2006
    Messages:
    3 249
    J'aime reçus:
    0
    Et beh c'est bien ma veine y a une limite du nombre de requêtes avec l'API Google ... Vous étonnez pas si vous avez un beau message "Quota Exceeded" :p

    Je verrai pour arranger ça après les exams. Si des gens ont aussi des propositions à faire ... :) Au pire je passerai par un jeu de proxies.
     
Chargement...
Similar Threads - Outil vérification plagiat Forum Date
probleme vérification outiles sandbox Débuter en référencement 3 Février 2013
Quel outil pour sécuriser un site ? vérification périodique des fichiers Administration d'un site Web 21 Octobre 2011
"Status code http" different selon outils de vérification Débuter en référencement 25 Avril 2011
Outils pour évaluer la concurrence sur un mot clé Débuter en référencement 20 Février 2021
Astuce Outil concurrent à SemRush ? Débuter en référencement 3 Février 2021
Astuce Je partage ce site d'outils SEO gratuit Débuter en référencement 25 Janvier 2021
Correction via l'outil RM tech et visibilité des résultats Référencement Google 13 Janvier 2021
Outil RM Tech Référencement Google 25 Décembre 2020
Outils : test des données structurées et des rich snippets Référencement Google 16 Décembre 2020
Choix d'un outil de suivi de rank et explorateur de mots clés Netlinking, backlinks, liens et redirections 24 Novembre 2020