Formation par Olivier Duffez

Formation au référencement par Olivier Duffez, créateur de WebRankInfo !
Une formule efficace alliant théorie et pratique, avec une haute disponibilité des intervenants
Cette formule a déjà convaincu plusieurs centaines d'entreprises, pourquoi pas vous ?
Réservez vite votre place en ligne (convention possible pour imputer sur le budget formation)

Formation référencement Marseille

Duplicate Content : le point sur ce que nous savons

Poster un nouveau sujet Imprimer cette discussion    Forum -> Référencement Google   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
zapman
WRInaute discret
WRInaute discret

Inscrit le: 08 Juin 2005
Messages: 96
Localisation: Nouvelle-Calédonie

URL permanente de ce messagePosté le : Jeu Mai 11, 2006 2:04    Sujet du message: Duplicate Content : le point sur ce que nous savons

Le "Duplicate Content" est le fait d'avoir 2 pages Web comportant le même contenu ou un contenu très proche.

Dans un tel cas, et pour éviter d'encombrer leurs résultats de recherche, les moteurs tels que Google élimine l'une des deux pages des résultats.

Le "Duplicate Content" est géré par un filtre et non par une pénalité. Il ne provoque pas de perte de PageRank (excepté pour le cas N°1 décrit ci-dessous), ni de "blacklistage" ou de "sandbox".

Pour éviter le cas le plus fréquent et le plus ennuyeux de "Duplicate Content", il est impératif que toutes les pages de votre site comportent des balises <Title> et <Description> différentes.

On peut distinguer 3 cas distincts de "Duplicate Content" :

1- Pages exactement identiques (à l'octet près)
Cas de sites miroirs. Google considèrera que la page ayant le plus fort PageRank est l'URL canonique. Il désindexera les autres pages et reportera leur PageRank sur la page retenue. Cela ne semble pouvoir se produire que si les pages identiques figurent sur des noms de domaine différents.

2- Pages similaires mais comportant des balises <TITLE> et <DESCRIPTION> différentes
Toutes les recherches portant sur le texte commun aux différentes pages donneront comme résultat la page ayant le plus fort PageRank. Les autres pages seront visibles en cliquant sur "relancer la recherche en incluant les pages ignorées". Elles figureront également dans les résultats des recherches portant sur leurs contenus originaux (ce qui diffère du texte commun).

3- Pages différentes mais comportant les mêmes balises <TITLE> et <DESCRIPTION>
Certaines pages peuvent sembler très similaires aux yeux des moteurs de recherche alors qu'elles semblent différentes aux yeux d'un humain. (en-têtes identiques, menus identiques, "footer" identique). Le fait qu'elles possèdent des balises identiques ne fait qu'aggraver la situation. Elles risquent de subir les mêmes problèmes que les pages similaires citées ci-dessus. Dans le pire des cas, il est même possible que leur contenu ne soit pas du tout indexé.

Le filtre "Duplicate Content" s'applique sur des pages et non pas sur la globalité d'un site.

Les pages concernées sont retirées des résultats mais ne sont pas désindexées. Si elles comportent une petite partie originale, on peut continuer à les retrouver par une recherche sur les mots de ce contenu original.

Lorsque le contenu d'une page est copié par un site indélicat, il arrive que Google conserve la page du copieur et retire celle de l'auteur. Google semble simplement privilégier la page ayant le plus fort PageRank à l'exclusion de toute autre considération.

Les sites proposant plusieurs versions de chacune de leurs pages (versions imprimables, par exemple) ne seront pas pénalisés par ce filtre. Simplement, une seule de ces pages figurera dans les résultats. Pour choisir laquelle, il suffit d'ajouter la balise <meta name="robots" content="noindex"> dans les pages que l'on ne souhaite pas voir figurer dans les résultats.

On lit souvent que deux pages doivent comporter moins de 70% de ressemblance pour échapper au filtre "Duplicate Content". Ce chiffre ne repose sur aucune base et ne résiste pas à l'expérimentation. Voir à ce sujet Expérimentation du "Duplicate Content"

Source de cet article (comportant d'autres précisions) : http://www.rankspirit.com/duplicate-content.php


Dernière édition par zapman le Jeu Mai 11, 2006 9:27; édité 1 fois
 
zapman Visiter le site web du posteur
dd32
Modérateur
Modérateur

Inscrit le: 09 Sep 2005
Messages: 3076
Localisation: Witamine d'abord !

URL permanente de ce messagePosté le : Jeu Mai 11, 2006 2:38    Sujet du message: Duplicate Content : le point sur ce que nous savons

Puisqu'on fait un point, tu me permets de rappeler ce topic ?
"Duplicate content" Existe t' il vraiment ?
Wink
 
dd32 Visiter le site web du posteur
zapman
WRInaute discret
WRInaute discret

Inscrit le: 08 Juin 2005
Messages: 96
Localisation: Nouvelle-Calédonie

URL permanente de ce messagePosté le : Jeu Mai 11, 2006 3:21    Sujet du message: Duplicate Content : le point sur ce que nous savons

dd32 a écrit:
Puisqu'on fait un point, tu me permets de rappeler ce topic ?
"Duplicate content" Existe t' il vraiment ?

Mais je vous en prie, chèr(e) ami(e), faites donc ! Very Happy
Et tant qu'on y est : >Ce topic aussi< : sur l’importance de la différentiation des balises meta et sur les risques propres aux sites dynamiques.

L'expérimentation citée dans le premier post tente de répondre à certaines des questions que posaient ces topics. Mais l'interprétation des résultats n'est pas toujours simple. En clair, la réponse à la question "qu'est-ce qui fait que Google détecte un Duplicate Content ou non" est loin d'être évidente.
Ce qui est sûr, c'est que la règle des 70%, qui est souvent citée, est tout à fait bidon. Rolling Eyes
 
zapman Visiter le site web du posteur
Rebelle bleue
Nouveau WRInaute

Inscrit le: 11 Mai 2006
Messages: 2

URL permanente de ce messagePosté le : Jeu Mai 11, 2006 23:31    Sujet du message: Duplicate Content : le point sur ce que nous savons

Dans ta page de résultats, on voit que ce sont les pages qui ont le plus de ressemblance avec la page originale qui sortent dans les résultats. Comment explique-tu ça ?
 
Rebelle bleue
zapman
WRInaute discret
WRInaute discret

Inscrit le: 08 Juin 2005
Messages: 96
Localisation: Nouvelle-Calédonie

URL permanente de ce messagePosté le : Sam Mai 13, 2006 2:28    Sujet du message: Duplicate Content : le point sur ce que nous savons

Rebelle bleue a écrit:
Dans ta page de résultats, on voit que ce sont les pages qui ont le plus de ressemblance avec la page originale qui sortent dans les résultats. Comment explique-tu ça ?

J'ai bien une explication, mais elle est un peu complexe :
- toutes les pages de l'expérimentation sont liées les unes aux autres à l'aide d'une liste de liens qui est toujours la même
- dans cette liste, les pages 90% (de ressemblance) et 80% sont placées en premier
- on peut supposer que ces pages récupèrent du coup un "PageRank" (ou quelque chose dans ce genre) plus important que les autres
- en cas de "Duplicate Content", Google choisit d'afficher les pages ayant le plus fort PageRank.
 
zapman Visiter le site web du posteur
Borower
WRInaute accro
WRInaute accro

Inscrit le: 18 Avr 2005
Messages: 2128
Localisation: Lyon

URL permanente de ce messagePosté le : Sam Mai 13, 2006 8:55    Sujet du message: Duplicate Content : le point sur ce que nous savons

Tres bon article.
Une recommandation

Ce sujet de duplicate content m'interresse beaucoup.
 
Borower Visiter le site web du posteur
pubwebmaster
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 15 Sep 2004
Messages: 237

URL permanente de ce messagePosté le : Sam Mai 13, 2006 10:35    Sujet du message: Duplicate Content : le point sur ce que nous savons

Pour un duplicate content sur un m'eme nom de domaine... que ce passe-t-il?
 
pubwebmaster Visiter le site web du posteur
zapman
WRInaute discret
WRInaute discret

Inscrit le: 08 Juin 2005
Messages: 96
Localisation: Nouvelle-Calédonie

URL permanente de ce messagePosté le : Sam Mai 13, 2006 12:35    Sujet du message: Duplicate Content : le point sur ce que nous savons

Citation:
Pour un duplicate content sur un m'eme nom de domaine... que ce passe-t-il?

Google et MSN ne retiennent qu'une seule page parmi toutes celles qui sont dupliquées (ou considérées comme telles) :
"Les sites proposant plusieurs versions de chacune de leurs pages (versions imprimables, par exemple) ne seront pas pénalisés par ce filtre. Simplement, une seule de ces pages figurera dans les résultats. Pour choisir laquelle, il suffit d'ajouter la balise <meta name="robots" content="noindex"> dans les pages que l'on ne souhaite pas voir figurer dans les résultats. "
 
zapman Visiter le site web du posteur
pubwebmaster
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 15 Sep 2004
Messages: 237

URL permanente de ce messagePosté le : Lun Mai 15, 2006 10:30    Sujet du message: Duplicate Content : le point sur ce que nous savons

Merci beaucoup pour ta réponse zapman...

je mettre tes conseils en application
 
pubwebmaster Visiter le site web du posteur
wullon
WRInaute accro
WRInaute accro

Inscrit le: 18 Sep 2004
Messages: 3892
Localisation: France

URL permanente de ce messagePosté le : Lun Mai 15, 2006 11:43    Sujet du message: Duplicate Content : le point sur ce que nous savons

Très bon article, en particulier la FAQ. J'aime bien l'emploi du mot filtre.

Et je me corrige, il me semble que j'avais dit dans un post précédent que c'était rare que Google soit sec sur le duplicate content dans le cas de différents domaines. Pourtant, http://www.google.com/search?q=dedibox. Seul le .fr est présent, le .com pas du tout, d'ailleurs, à un moment c'était le contraire (on voit que Google avait du mal à "choisir", d'ailleurs, dedibox.fr est l'exemple de ce qu'il ne faut pas faire ^^).
Peut être aussi que Google se base sur d'autres infos (whois ?).

Par contre, je trouve la phrase "en cas de "Duplicate Content", Google choisit d'afficher les pages ayant le plus fort PageRank" un peu trop catégorique.

Je ne sais pas si c'est spécialement le PR (~ quantité+qualité des BLs) qui influe. Par exemple, pour dedibox, si le .com a 18k liens avec "a" en ancre, et le .fr 100 mais avec "dedibox" en ancre, ce ne serait pas le .fr qui serait gardé ?

Quelqu'un a des exemples de sites qui ont été filtré à tord ?

Parce que justement, le truc, c'est que cette histoire de duplicate fait peur, mais que finalement Google ne se trompe pas (ou se corrige vite).
Enfin il y a eu cette lettre ouverte aussi.
 
wullon Visiter le site web du posteur
zapman
WRInaute discret
WRInaute discret

Inscrit le: 08 Juin 2005
Messages: 96
Localisation: Nouvelle-Calédonie

URL permanente de ce messagePosté le : Lun Mai 15, 2006 13:12    Sujet du message: Duplicate Content : le point sur ce que nous savons

wullon a écrit:
Je ne sais pas si c'est spécialement le PR (~ quantité+qualité des BLs) qui influe. Par exemple, pour dedibox, si le .com a 18k liens avec "a" en ancre, et le .fr 100 mais avec "dedibox" en ancre, ce ne serait pas le .fr qui serait gardé ?


Très bonne question. Il faudra que je fasse le test sur mes pages d'expérimentation Very Happy
 
zapman Visiter le site web du posteur
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Référencement Google Toutes les heures sont au format GMT + 2 Heures
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

Autres sujets de discussion :

Définitions :

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort