Je cherche des précisions sur le duplicate content

Nouveau WRInaute
Bonjour à tous,

J'ai besoin d’aide à propos d’un site dans le domaine de la formation professionnelle.
Dans ce cadre, le site cite des extraits de textes législatifs qui se retrouvent ailleurs sur le net.
Pour vérifier l'existence de ces contenus, je fais des recherches sur des expressions exactes avec des phrases complètes avec des doubles cotes : "texte".
Existe-il une longueur de texte à partir de laquelle il est considéré comme du contenu dupliqué : une simple phrase de 120 caractères, un paragraphe de 500 caractères ?
Y a-t-il sur le net un nombre de textes identiques à partir duquel le texte est considéré comme contenu dupliqué ou en suffit-il d’un seul ?
Y a t-il des astuces pour pourvoir citer ce genre des contenus non originaux en effet, mais nécessaires pour l’internaute, cela sans être pénalisé pour contenu dupliqué ?

J’espère que mes questions sont claires et pas trop naïves, je ne suis pas un spécialiste.

Merci pour votre aide
 
WRInaute occasionnel
A tes premières questions je n'ai pas de réponse précise mais pour celle-ci:
Y a t-il des astuces pour pourvoir citer ce genre des contenus non originaux en effet (...) sans être pénalisé pour contenu dupliqué ?
Tu peux faire des captures d'écran des extraits de texte et les présenter sous forme d'image jpg, ainsi point de texte dupliqué repérable par un robot.
 
WRInaute passionné
Une autre idée serait de générer dynamiquement le texte en image via PHP histoire de ne pas avoir à faire des captures d'écran.

Sinon pour en revenir au sujet du DC, si le texte législatif présent sur chaque page représente qu'une petite partie du contenu total de la dite page, les chances de se faire pénaliser pour DC sont minimes. En fait, avant de se poser la question de savoir si le DC est pénalisé pour une phrase de 120 mots ou un paragraphe de 500 mots, il serait bon de connaître le poids de ce texte dans la page. Si la page fait 125 000 mots, je doute fortement qu'un paragraphe de 500 mots déclenche une pénalité pour DC si le reste du contenu est clean. A l'inverse, si les pages ne sont en fait constituées que de textes législatifs sans aucun autre contenu, c'est la sanction automatique.
 
WRInaute accro
pierrewebaster a dit:
, je fais des recherches sur des expressions exactes avec des phrases complètes avec des doubles cotes : "texte".
Existe-il une longueur de texte à partir de laquelle il est considéré comme du contenu dupliqué : une simple phrase de 120 caractères, un paragraphe de 500 caractères ?

J'ai des exemples (anciens) de moins de 10 mots qui ont déclassé des pages .... vers 2009 et plus vraiment suivi cette piste en terme de sanctions (il y a pire depuis)
pierrewebaster a dit:
Y a t-il des astuces pour pourvoir citer ce genre des contenus non originaux en effet, mais nécessaires pour l’internaute, cela sans être pénalisé pour contenu dupliqué ?
Mettre un système de balises sommaire ... dans les quelques cas où je le fais, je prend le début de l'article en plein texte dans un simple tableau avec en début "citation" suivi du lien vers le texte original mais c'est pas franchement le top.

Par contre, dès que le DC (duplicate content) devient trop important sur une phrase, Google réagit un peu n'importe comment. En gros, une balise ou autre technique pour différencier ce contenu devrait suffire A CONDITION d'avoir un réel contenu au-tour.

C'est une excellente question :wink:
 
Discussions similaires
Haut