Duplicate content : quelques erreurs à éviter

WRInaute accro
autant aujourd'hui l'erreur 1 est bien rentrée dans les moeurs, autant l'histoire des paginations, il faut y penser :)

par contre le / et le /index.php, meme avec une redirection 301, on fait puir le PR ?
 
Olivier Duffez (admin)
Membre du personnel
Je viens de mettre à jour mon article avec un exemple de code (pour l'erreur n°2, pas pour PunBB désolé)
 
WRInaute passionné
Je ne sais pas si ça vient des logiciels de type dreamweaver ou autres mais le coup des liens pointant vers index.php au lieu de la racine reste un grand classique...
 
Olivier Duffez (admin)
Membre du personnel
oui en effet dans dreamweaver pour indiquer la cible d'un lien on doit pointer vers un fichier et non un répertoire (ou alors j'ai pas vu). C'est la raison pour laquelle certaines URL "officielles" de WRI sont avec /index.php (les forums par exemple)
 
WRInaute passionné
Fab le Fou a dit:
Je ne sais pas si ça vient des logiciels de type dreamweaver ou autres mais le coup des liens pointant vers index.php au lieu de la racine reste un grand classique...
La plupart travaillent avec des URLs relatives. Ils permettent aussi de créer des liens juste en cliquant surla page de destination, ce qui favorise en effet les liens vers index.htm

EDIT : grillé sur le fil
 
WRInaute accro
Merci Olivier ;)
mon ancien hébergeur faisant une redir automatique...ce qui n'est pas le cas du nouveau !
Souci réparé (+ qu'une paille...une poutre dans l'oeil)
Fred :)
 
WRInaute passionné
Très bon article, d'ailleurs j'ai eu un problème de duplcate récent !
Pour la petite histoire on pouvait accéder à mon url soit par le nom de domaine, soit par le nom du serveur et Google je ne sais comment avait indexé l'url de mon serveur (étrange).

Bref j'ai résolu le blème pour l'url du nom de serveur avec une belle error 404.
Pourquoi pas avec une redirection 301 ? Tout simplement car je n'ai pas encore trouver la solution ! :lol: L'error 404 permet déjà de dire aux moteurs de recherche de ne plus indexer l'url de mon serveur, ça va prendre plus de temps que la redirection 301, mais c'est déjà ça !

edit : Bon bâ c'est fait pour la redirection 301, suffisait de trouver la bonne arborescence ! Cool !

Sinon dans la lancé, que dire de l'IP du nom de domaine ?

Mais... Mais je me demande vraiment si c'est pénalisant le duplicate, en effet, j'ai cru voir que Google indexait la page la plus populaire au détriment de celle dupliquée ! Une sorte d'indexation intelligente en somme et reposante pour le webmestre ! :D
 
WRInaute accro
Même interrogation que david96 : les erreurs mineures (comme la page 1 d'un forum), est-ce que ça va être vraiment pénalisant ?
 
WRInaute accro
Bonjour, pour ce qui est de la pagination, je pense qu'effectivement cela peut-être pénalisant et phpbb par exemple n'est pas en reste pour ce qui concerne la multiplication inutile des urls (suffit de faire une commande site: sur google pour s'en apercevoir ;) ) et compte tenu de la "complexitude" du script j'ai préféré jeter l'éponge.

[Quasi hors sujet]Je me souviens avoir par contre indiqué la modif pour categorizator [/Quasi hors sujet]

@+
 
WRInaute accro
WebRankInfo a dit:
Voici 4 erreurs à éviter concernant le duplicate content. Rien de bien nouveau mais je vois tellement de sites qui les font que je me suis décidé à écrire ce petit article (qui pourra utilement être complété suite à vos remarques)
Personnellement, j’aurais précisé la définition que tu donnes du duplicate content:

On parle de contenu dupliqué dès lors qu'une même page est accessible par plusieurs urls de syntaxes différentes.

A mes yeux, il n'y a pas plus clair.
 
Nouveau WRInaute
et une de plus

J'en ai un de plus que je vois régulièrement :

Site de voyages ou de tourisme qui fait une version blanche pour un partenaire. Le soucis c'est qu'en fin de compte la version blanche est une simple copie de la version originale avec un simple bandeau en plus. Résultat le site plonge en plein duplicate content sans y avoir pensé car le principe de la marque blanche n'était pas lié au référencement.

J'ai même vu un cas où le partenaire étant plus "fort" que le fournisseur, c'est la version en marque blanche qui l'emporte sur l'original qui chute dans les classements.

Cette situation existe aussi pour les versions test lors du lancement car il arrive que la version "test" soit indexée et parfois laissé en ligne aprés le lancement du véritable site.
 
WRInaute accro
coquette a dit:
Etes vous bien sur en voyant cela que google pénalise ce qu'on appelle le duplicate content ?
Il ne s'agit pas d'une même page accessible par plusieurs URL mais de plusieurs pages qui ont chacune leur propre adresse.
Il y a le duplicate dont il est question ici et la multiplication de documents identiques, ce n'est pas pareil.
 
WRInaute occasionnel
Szarah a dit:
coquette a dit:
Etes vous bien sur en voyant cela que google pénalise ce qu'on appelle le duplicate content ?
Il ne s'agit pas d'une même page accessible par plusieurs URL mais de plusieurs pages qui ont chacune leur propre adresse.
Il y a le duplicate dont il est question ici et la multiplication de documents identiques, ce n'est pas pareil.

Je ne te comprends pas: il s'agit bien d'un même contenu (certes, en flash) accessible depuis plusieurs ndd, donc plusieurs url.

Tu peux même tester les mêmes 3 ndd en ajoutant à chacun un /index.html et c'est la même page qui se charge.
 
WRInaute accro
coquette a dit:
Szarah a dit:
coquette a dit:
Etes vous bien sur en voyant cela que google pénalise ce qu'on appelle le duplicate content ?
Il ne s'agit pas d'une même page accessible par plusieurs URL mais de plusieurs pages qui ont chacune leur propre adresse.
Il y a le duplicate dont il est question ici et la multiplication de documents identiques, ce n'est pas pareil.

Je ne te comprends pas: il s'agit bien d'un même contenu (certes, en flash) accessible depuis plusieurs ndd, donc plusieurs url.

Tu peux même tester les mêmes 3 ndd en ajoutant à chacun un /index.html et c'est la même page qui se charge.
Bin non, pas chez moi.
J'ai distinctement trois URL
-http://www.pleasur*estate.net/
-http://www.pleasur*estate.com.au/
-http://esvc000839.wic020u.server-web.com/

Que le Flash soit le même, c'est pareil que si tu utilisais le même .gif dans trois pages différentes.
No duplicate au sens de "plusieurs URL qui pointent vers un même document".

Edit : ce serait différent si les trois liens conduisaient au même .swf non embeddé dans une page.
 
WRInaute occasionnel
Szarah a dit:
Bin non, pas chez moi.
J'ai distinctement trois URL
-http://www.pleasur*estate.net/
-http://www.pleasur*estate.com.au/
-http://esvc000839.wic020u.server-web.com/

Que le Flash soit le même, c'est pareil que si tu utilisais le même .gif dans trois pages différentes.
No duplicate au sens de "plusieurs URL qui pointent vers un même document".

Edit : ce serait différent si les trois liens conduisaient au même .swf non embeddé dans une page.

Justement, ces trois url conduisent au même document.

De plus ces trois url conduisent à la même page avec et sans le /index.html -> là aussi théoriquement il devrait y avoir une pénalité pour duplicate content.

Prends un site comme http://www.macbidouille.com/ : même chose= accessible aussi avec /index.php (et classé 4ème sur google pour la requête "mac" !!)

Moi ça me met un doute sur la réalité de cette "pénalité...?
 
Olivier Duffez (admin)
Membre du personnel
concernant macbidouille : peut-être serait-il encore mieux placé s'il corrigeait ce petit problème ! Dans ce cas ce n'est pas très grave en effet (d'ailleurs je n'ai pas utilisé le terme "pénalité" pour ce cas)
 
Olivier Duffez (admin)
Membre du personnel
Oui le lien vers index.htm est équivalent à http://example.com/index.htm (si tu es dans le même répertoire, à la racine du site). C'est ce qu'on appelle un lien relatif.

Tu peux remplacer ces liens par des liens vers / comme ça ça marchera de n'importe où sur ton site
 
WRInaute discret
Bonjour Merci pour cet article.


J'ai une question :

l'adresse de ma page index est la suivante
monsite.com/index.html
si une personne mal intentionné fait une lien vers monsite.com/index.html?test=ok

j'obtiendrai bien ma page index.
je bloque donc le ? dans mes urls.

Maintenant j'ai le lien suivant :
mapage.com?id=1

si je marque ceci dans l'url mapage.com?id=1&test=ok, j'obtienrai la même page.

Donc Pensez vous qu'il faut bien vérifier le contenu de la query string et auriez vous des astuces à ce sujet pour éviter le dupplicate content ?

Merci
 
Olivier Duffez (admin)
Membre du personnel
xtaze, regarde l'exemple de code donné pour l'erreur n°2, tu peux l'utiliser dans ton cas je pense (il y a sans doute d'autres façons de faire, par exemple en .htaccess)
 
WRInaute discret
Salut à tous,
suivant les conseils obtenus sur un autre forum, je référence mon site comme ca:
50% pour ww.monsite.com (donne de la pertinance à tous le site)
50% pour ww.monsite.com/index.php (donne de la pertinance pour la page

et idem pour les sous catégories de mon site
50% pour ww.monsite/Dossier (pertinance pour toutes les pages du dossier)
50% pour ww.monsite/Dossier/index.php

Qu'en pensez vous?
 
WRInaute accro
Fab le Fou a dit:
Je ne sais pas si ça vient des logiciels de type dreamweaver ou autres mais le coup des liens pointant vers index.php au lieu de la racine reste un grand classique...

peut-être mais je me méfierais de cette remarque. Sur mon forum, premier sur la requête "forum informatique" il y a deux ans avec index.php puis redescendu dans le fond des abimes .... Tout essayé pour remonter :lol:

On peut trouver un tas de trucs (genre comme lu ici, le meilleur PR passe devant et les autres n'existent pas et bien non index.php PR3 est largement devant /forum PR4 - il apparait de temps en temps de temps en temps sur la requête).
Pourtant, j'ai essayé toutes les combines possibles (tous les liens vers index.php ou vers Forum), modifé les textes des liens dans les 2 sens , mélangé les textes des liens pour réduire ou augmenter l'incidence, ... rien à faire. Je crois que GG est plus malin que ça.

Le duplicate content est nettement plus compliqué qu'on crois. Avec des pages copiées en externes, GG doit tenir compte de la vieillesse de la page de départ, en interne ... pas si sûr.
 
WRInaute accro
SparH>je ne vois pas du tout l'intérêt, et je ne suis pas spécialement enthousiaste avec la pseudo théorie "si on met le index.php, c'est juste la page qui prend, tandis que sans c'est tout le dossier parent" (sous entendu toutes les pages du dossier parent je suppose).
 
WRInaute discret
Salut,
wullon --> c'est exactement ça (qu'on m'avait dit)

En fait je référence mon site comme ça depuis le début.
Sur mon site tous les liens sont "entier" du type monsite.com/index.php

Quand je me suis fait attribuer mon pr il est arrivé d'un coup et surtout identique sur toute les pages principales:

monsite.com/index.php
monsite.com/Dossier/index.php
monsite.com/Dossier/sous_page.php
monsite.com/Dossier2/index.php
monsite.com/Dossier2/sous-page.php
etc...
pr identique sur toute les pages

Je référence d'autres site d'une manière plus traditionnelle et j'ai plutôt un fort PR pour l'accueil et un plus faible quand on rentre dans le site.

Vos avis?...?
 
WRInaute discret
Avec ta méthode, tu as un PR moyen sur les trois-quatre pages que tu références, au lieu d'avoir un PR plus fort sur la page principale et un peu plus forte sur les duplicats.

Sans oublier que les pages index.php ne sortiront qu'exceptionnellement dans les recherches, puisque doublons de la page d'accueil.

Bilan: ton PR se dilue sur plusieurs page et tu es moins visible.
 
WRInaute discret
Pour moi le pr ne sert qu'a trouver des partenaires (difficile de convaincre un webmaster de faire un lien vers un site à faible pr)

Mais revenons à notre problème:
moi ce qui m'intéresse c'est d'être bien positionné pour mes mots clefs et leurs champs lexicaux.

En tous cas vous m'avez convaincu et je vai changer ma technique et ne faire des liens que vers des pages et non les Dossiers. (sauf pour l'accueil de mon site ?)

Merci
++
 
WRInaute occasionnel
question bete (enfin il parait qu'il n'y en pas :wink: ) :

J'ai modifié mon problème de pagination dans mon code comme recommandé par l'article maintenant mes pages suivantes appellent bien "page-A" et plus "page-A_0" (merci l'article)

J'ai donc également ajouté cette ligne à la fin de mon htaccess :

Code:
RewriteRule ^forum/sujet-page-A_0\.html$ forum/sujet-page-A.html [R=301]

maintenant comment vérifié que mon 301 fonctionne correctement ? car dans les lignes précédentes de mon htacess l'ancienne "page_([0-9]+)" fonctionne toujours ... bref je sais pas comment vérifier :?

merci pour vos réponses
 
WRInaute discret
WebRankInfo a dit:
xtaze, regarde l'exemple de code donné pour l'erreur n°2, tu peux l'utiliser dans ton cas je pense (il y a sans doute d'autres façons de faire, par exemple en .htaccess)

est ce que tu penses que cela est utile ?

car pour moi cela représente un risque mais la plus part des sites ne le font pas
exemple : h**p://www.webrankinfo.com/actualites/200703-erreurs-de-duplicate-content.htm?test=ok


Merci
 
Olivier Duffez (admin)
Membre du personnel
@pierre_jean : je pense qu'il faut mettre la règle de réécriture spéciale (concernant le _0) avant l'autre, et mettre [R=301,L] le L servant à dire que c'est la dernière (Last) règle à examiner, qu'il ne faut pas traiter les suivantes
Pour tester si ça marche bien, prends cet outil et mets l'URL de ta page avec le _0 et regarde le résultat

@xtaze : en effet moi je ne l'ai mis que sur quelques rares pages, par exemple pour le forum. Dans l'idéal, il faudrait peut-être le faire partout.
 
Olivier Duffez (admin)
Membre du personnel
Pour info, depuis le début de cette discussion, j'ai ajouté dans mon article la description de 2 erreurs. Merci à tous pour vos commentaires.
 
WRInaute accro
Ok merci, pour l'erreur n°5, j'ai l'impression que c'est légèrement mal formulé.
"Vous avez mis en place une 301, mais vérifiez quand même que les deux domaines ne sont pas indexées" -> et si c'est le cas alors, on fait comment (ce n'est pas précisé dans l'article) ? (et puis a priori la 301 suffit non ?)
 
WRInaute accro
Je préférai quand il n'y avait que 4 erreurs personnellement car là certaines sont redondantes.
Mais c'est plus complet donc mieux.
@+
 
Olivier Duffez (admin)
Membre du personnel
@wullon : j'ai complété, tu trouves ça plus clair ?

@serval2a : en effet c'est plus complet mais qu'est-ce qui est redondant d'après toi ?
 
WRInaute accro
Bonjour,
En fait j'ai l'impression peut-être à tord que certaines question se recoupent, peut-être faut-il mieux les classer selon leur thématique d'autant que les solutions se trouvent dans la modification des mêmes fichiers.
Ainsi :

- Erreur n°1 : plusieurs adresses pour un même site.
Avec le cas des entrées avec ou sans 3w, et la bonne gestion des alias.

- Erreur n°2 : avoir plusieurs Url pour une même page
Cas de la page d'accueil disponible avec index.html
Cas de pagination en page 1 et de la génération des variables

- Erreur n°3 : mauvais usage du rewriting
2 types d'URL indexables (réécrites et classiques)
 
WRInaute accro
WRI>c'est un peu mieux :p

serval2a>je ne sais pas si c'est une bonne idée de tout regrouper. Par exemple dans ton exemple 2, je trouve que les deux problèmes sont quand même différents.
 
Nouveau WRInaute
Merci erreur plusieurs ndm

Merci pour la remarque concernant la duplication des noms de domaines
P
our des rairons de protection (De grands groupes ayant commencé à réserver des ndm avec le nom de mon site) j'ai pris tout ce qui restait avec tiret, sans tiret, en net, com, org, net

L'Url communiquée à des tiers est avec - (tiret entre 2 mots) et en .net

L'avantage de garder plusieurs ndm avec le même contenu = Certains moteurs français ont uniquement pris en compte mon site en .fr alors que je ne le communique à personne - D'autres ont retenu d'autres ndm

Inconviénients (j'y pense grâce à votre article) au lien d'avoir tout de concentré sur un seul ndm ... je suis un dilué partout ... et certainement un risque de perturber des moteurs comme GG

Merci donc car j'ai fais du redirect permanent vers le site officiel dans un .htaccess pour chacun des autres ndm

Par contre pour les WWW je ne peux rien faire je pense car avec ou sans est confondu sur 1&1
 
Nouveau WRInaute
autre cas de duplicate content: site multilingue avec redir.

Je vois un autre cas de duplicate content non cité par Olivier dans son post sur le duplicate content

Cela correspond au cas d'un site multilingue avec détection automatique de la langue du navigateur. Disons qu'il y a deux langues: l'anglais et le français.

Bien entendu on ne crée pas une page home qui ne ferait que proposer le choix de la langue (ce serait mauvais pour le référencement) mais une page home ayant un contenu réel dans la langue que l'on choisit de favoriser (par exemple le Français pour des raisons historiques) - cf. post de Cyril).

Disons que l'on favorise le Français. La page home détecte, en PHP par exemple (index.php), la langue du navigateur. Si la langue du navigateur est l'Anglais, elle redirige l'utilisateur vers la page anglaise, index_en.htm par exemple (cette page n'a pas besoin d'être en PHP).

Jusqu'ici tout va bien: deux pages avec du contenu, dont l'une est la home page, dans deux langues différentes et pas de duplicate content.

Cela se complique lorsqu'on veut permettre à l'utilisateur de changer de langue. Imaginons un utilisateur français avec un navigateur de langue anglaise: il a été redirigé vers index_en.htm mais il veut forcer l'affichage en Français. Il clique donc sur le lien "En Français".

Il faut rediriger l'utilisateur vers la page index.htm mais cette fois-ci ne pas faire de redirection.
Le moyen le plus simple est de passer un paramètre à l'URL: index.php?lang=fr.

Et nous voilà avec un duplicate content: index.php et index.php?lang=fr !

On peut d'ailleurs noter que le site multilingue easyexpat.com cité par Cyril présente ce problème: il y a bien un duplicate content entre les pages http://www.easyexpat.com/ (page home en Anglais, langue privilégiée ici) et http://www.easyexpat.com/index_en.htm

Comment remédier à cette situation?

On peut utiliser la méthode POST, bien que cela oblige de créer un formulaire bidon dans index_en.htm.

Il y aussi les sessions, mais c'est un peu dommage d'en gérer uniquement pour cela, et les cookies mais tout le monde ne les autorise pas.

Voyez-vous d'autres moyens de procéder?
 
Nouveau WRInaute
Mais la plupart des liens externes référencent la racine du site, donc il faut que cette page ait un contenu et fasse autre que rediriger vers index_fr.htm ou index_en.htm, non?
Sinon ça me semble dommage en termes de référencement.
 
WRInaute impliqué
Woof, le problème que tu soulèves est un foutu problème...

En fait cela revient à se poser la question "Comment distinguer celui est redirigé de celui qui a choisi une langue ? "

On peut le faire avec un cookie (mais personnellement je n'aime pas trop les cookies) ou par test sur le referer (et les quelques % de visiteurs qui surfent sans referer seront redirigés à nouveau, tant pis pour eux... :mrgreen: )

L'autre solution est de donner un contenu un peu différent à la page obtenue avec le paramètre langue=fr.

J'ai fait les 2 sur des deux sites différents. En pratique dans la seconde solution, Google met quand même la seconde page en résultat complémentaire mais cela ne semble pas pénalisant en terme de positionnement.

Ceci dit, j'évite maintenant les redirections automatiques de langue.
 
WRInaute discret
Bonjour,

Dans ce cas, que faut-il indiquer dans le sitemap ?

htt*p://www.domaine.dom/
ET
htt*p://www.domaine.dom/index.htm

Ou seulement

htt*p://www.domaine.dom/
OU
ET
htt*p://www.domaine.dom/index.htm
 
WRInaute accro
woof a dit:
Mais la plupart des liens externes référencent la racine du site, donc il faut que cette page ait un contenu et fasse autre que rediriger vers index_fr.htm ou index_en.htm, non?
Sinon ça me semble dommage en termes de référencement.
Si c'est une redirection 301, il n'y a pas de soucis. C'est exactement pareil que pour https://www.webrankinfo.com/forum/ :).
 
Nouveau WRInaute
Merci Remi L. pour ta réponse, tu as bien résumé la problématique. Je n'avais pas pensé à tester le referer. C'est quoi les "quelques % de visiteurs qui surfent sans referer" ? Dans quel cas cela se produit-il?

Rackham, concernant htt*p://www.example.com/ et htt*p://www.example.com/index.htm (ce qui est une question indépendante du problème de redirection selon la langue que je soulevais), il faut choisir une des deux URL (généralement htt*p://www.example.com/) et faire une redirection 301 de htt*p://www.example.com/index.htm vers htt*p://www.example.com/. Source: blog officiel Google: http://googlewebmastercentral.blogspot. ... rawls.html

Dans le fichier .htaccess (si ton provider utilise Apache), tu écris:
Code:
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.htm\ HTTP/ 
RewriteRule ^index\.htm$ http://www.example.com/ [R=301,L]
Après, la question de sitemap est accessoire. Ce n'est pas parce que tu ne déclares pas une page dans le sitemap qu'elle ne sera pas indexée (heureusement). Dès lors qu'une page est accessible par une autre page, elle est susceptible d'être indexée. C'est pour cela qu'il faut faire la redirection 301 parce que htt*p://www.example.com et htt*p://www.example.com/index.htm sont tous deux susceptibles d'être référencés par d'autres pages.

wullon, je te remercie pour ta suggestion mais je ne peux pas faire dans le cas que j'évoque une redirection 301 de index.php vers index_fr.htm par exemple. En effet, la page index.php doit détecter la langue du navigateur pour afficher soit de l'anglais soit du français. Si je fais une redirection 301, ce code ne s'exécutera pas.
 
WRInaute accro
Ben tu détectes la langue, et ensuite tu fais la redirection ^^, non (tout dépend comment tu gères la détection/redirection mais a priori ce n'est pas infaisable du tout) ?
 
WRInaute impliqué
woof a dit:
C'est quoi les "quelques % de visiteurs qui surfent sans referer" ? Dans quel cas cela se produit-il?

Certaines personnes s'installent un bloqueur de referer, un utilitaire qui "vide" le referer (les plus lourdingues remplissent le referer avec des "++++"). Cela ne concerne heureusement qu'un pourcentage très réduit des visiteurs, je dis "heureusement" parce que si tout le monde faisait cela, on ne pourrait plus bosser...
 
WRInaute impliqué
wullon a dit:
Ben tu détectes la langue, et ensuite tu fais la redirection ^^, non (tout dépend comment tu gères la détection/redirection mais a priori ce n'est pas infaisable du tout) ?

D'accord, mais les problèmes commencent quand tu désires avoir la langue par défaut (ou pas de langue) sur l'url du NDD seul.
 
WRInaute accro
Remi L. a dit:
wullon a dit:
Ben tu détectes la langue, et ensuite tu fais la redirection ^^, non (tout dépend comment tu gères la détection/redirection mais a priori ce n'est pas infaisable du tout) ?

D'accord, mais les problèmes commencent quand tu désires avoir la langue par défaut (ou pas de langue) sur l'url du NDD seul.
Si pas de langue le problème de se pose pas, et sinon ben ce n'est pas très grave que l'URL http://www.example.com n'"existe" pas.
Ou alors j'ai mal compris, et la redirection doit s'appliquer sur toutes les pages internes du site (pas seulement sur la home) ?
 
WRInaute impliqué
wullon a dit:
sinon ben ce n'est pas très grave que l'URL http://www.example.com n'"existe" pas.

Effectivement, si l'on utilise l'URL du NDD seul comme une plaque d'orientation, tout va bien.
Mais quand on veut utiliser l'URL du NDD seul pour du contenu (et c'est pour cela que l'on est en plein dans le sujet de ce thread), c'est là que ça coince.
 
WRInaute accro
Parce que le serveur web fait par défaut une redirection 301 du "sans slash" vers le "avec slash" il me semble.
 
Discussions similaires
Haut