Eviter le duplicate content (similarité du contenu)

WRInaute impliqué
Bonjour,

Croyez-vous que google considère 2 pages identiques si le contenu des 2 pages n'est pas présenté dans le même ordre ?
Ex.:
-page 1=
<p>abc-def-ghi</p>
- page 2=
<p>ghi-def-abc</p>
Et dans ce cas ?:
-page 3=
<p>abc</p>
<p>def</p>
<p>ghi</p>
- page 4=
<p>ghi</p>
<p>def</p>
<p>abc</p>
 
WRInaute impliqué
Voici le résultat du test effectué avec -http://www.webconfs.com/similar-page-checker.php

page 1-page 2: 50% de similitude
page 3-page 4: 50%
page 1-page 3: 83%
page 2-page 4: 83%
page 1-page 4: 33%
page 2-page 3: 33%

Cet outil ne prend donc pas trop en compte les balises comme délimiteurs d'unités de contenu. L'ordre par contre est important, avec ou sans balises: le même contenu dans le désordre voit son taux de similarité dégringoler.

Je ne sais pas si gg réagit pareil.

Ce serait peut-être intéressant de continuer l'expérience... car s'il suffit de rendre aléatoire l'ordre de certaines choses dans le template des pages (liens menu p. ex.) pour baisser le risque de duplicate content, je vais écrire qq fonctions !
 
WRInaute passionné
Il a été dit que google ne prennait pas en compte les balises pour faire son calcul de similitude entre deux pages.
Je n'ai pas fait de test et n'affirme pas ce que je dit.
 
Discussions similaires
Haut