Comment éviter le duplicate content ?

WRInaute accro
Je poste dans cette catégorie bien qu'il ne s'agit pas d'un test mais je pense que c'est bel et bien une étude de cas.

Je vous explique un peu mon problème ...

Cela concerne le référencement d'une galerie photo. La galerie est organisée en albums et chaque album peut contenir des sous-albums.

Je pense avoir deux problèmes de duplicate content qui sont dus au fonctionnement de la galerie :

1 : une photo peut appartenir à deux albums ou même plus ==> même contenu avec deux url différentes et très peu de choses qui changent entre les deux pages
(exemple d'url : ../photos/photographie.php?photo=264&album=49)

2 : chaque page de photo présente des liens aléatoires (sous forme de vignette cliquable) vers 4 autres photos. Mais étant donné que certaines photos peuvent appartenir à plusieurs albums, afin de ne pas privilégier ses photos par rapport aux autres, les liens sont faits sans préciser de notion d'album
(exemple d'url : ../photos/photographie.php?photo=264)

Vous voyez le problème ?

Une solution radicale serait de n'autoriser une photo que dans un et un seul album et j'aurai alors bijection page-photo, mais pour compliquer un peu les choses ce n'est pas l'option que j'ai choisie.

Le problème qui me pose le plus soucis est le deuxieme cas car le premier est relativement rare.

Déjà une première fois fin 2006 google s'est mis à me supprimer une à une de son index toutes mes pages photo. Je le vois en effectuant la recherche suivante :
site:monsite..../photos/photographie.php
Je suis tombé à moins de 10% de pages photographie indexées.

PREMIERE ACTION :
J'ai alors fait des modifications pour que sur les pages appelées avec le paramètre "album=" et celles appelées sans le paramètre, le titre et la description soient différents.
J'ai aussi modifié l'affichage de mon menu :
- dans un cas les liens vers les sous-menus sont masqués à l'affichage mais restent des liens
- dans l'autre cas les liens masqués sont simplement transformés en texte

Cette technique me permet en plus de renforcer les liens vers mes sous catégories . Par exemple quand je suis dans le sous-album "chiens" la page comportera uniquement les liens vers les catégories principales et vers les sous-albums de la catégorie "animaux" mais je n'aurai pas directement des liens vers les sous-catégories de la catégorie "paysages". Ca permet d'avoir une structuration au niveau des liens au lieu d'avoir toujours la même centaine de liens sur chaque page.

Très bien.... ça a fonctionné et google s'est remis à m'indexer mes pages.

Mais 6 mois plus tard ça recommence à nouveau et je perd une à une toutes mes pages "photographie"


SECONDE ACTION :
J'ajoute une seconde description qui ne s'affiche que sur les pages appelées directement sans notion d'album. Mais très peu sont renseignées pour l'instant.

Je fais aussi en sorte d'afficher des infos différentes sur cette page : un texte avec des liens qui revient sur toutes les pages et qui n'est pas présent dans l'autre cas.

Ca semble suffire et google me réindexe mes pages.


Mais 6 mois plus tard ça recommence à nouveau et je perd une à une toutes mes pages "photographie"



TROISIEME ACTION :
- J'ajoute dans un cas des citations aléatoire (une dizaine différentes pour l'instant) qui ne s'afficheront que sur un type de page et pas l'autre.
- Je modifie plus profondément les descriptions des deux types de pages

J'en suis presque sur le point d'utiliser des techniques interdites (texte caché bourré de mots clés qui ne sera pas visible par les internautes) pour arriver à faire comprendre à google que ces deux pages sont bel et bien différentes.

Enfin, oui, c'est vrai, elles ne sont pas si différentes que ça, je l'admet, mais google pourrait au moins m'en référencer une des deux. Sur Yahoo.com j'ai 3343 pages photographie.php d'indexées, ça représente 77% des pages. Chez GG je suis tombé en dessous des 17% alors qu'il y a encore deux mois j'en avais plus de 2000 (et moins de 700 aujourd'hui).



Je pense que depuis quelques semaines google est beaucoup plus restrictif dans sa détection de duplicate content et qu'il ne s'intéresse plus simplement à l'ensemble de la page et aux similarités qu'il peut y avoir entre les mots présents et leurs densité mais qu'il est capable de détecter un duplicate content dans le contenu et même dans les phrases exactes. Par exemple si une série de 20 mots sont strictement identiques et dans le même ordre entre deux pages d'un même site (et que ça ne revient pas sur toutes les pages donc que ça fait bien partie du contenu et non du décors), il ne référence aucune des deux en guise de pénalité. Si c'est entre deux sites différents il conserve le plus ancien des deux.

Je dirais que google est capable maintenant de détecter le "copié-collé" et donc le plagiat.

Est-ce que vos analyses vont aussi dans ce sens ?


Alors mes questions :

1) Est-ce vraiment un problème de duplicate content ou bien ça peut venir de tout autre chose ? Notamment je suis resté deux mois sans faire énormément de mises à jours, par contre les albums ont progressés ou stagné dans les SERP, il n'y a que les pages photo qui disparaissent.

2) Est-ce que mes méthodes pour chercher à éviter les duplicate-content sont considérées maintenant comme illicites par google qui pense que je cherche à tricher ?

3) Quelles solutions proposez-vous pour résoudre mon problème d'indexation de mes pages ? Mon site est avant tout basé sur la galerie et si elle n'est plus indéxée il n'y a plus aucun intérêt.


Une piste : j'ai peut-être trop ajouté d'albums et le menu devient prépondérant par rapport au contenu. Il faudrait que je rédige des descriptions plus longues dans ce cas. Mais alors pourquoi seules mes pages "photographie" sont affectées ? Je n'ai pas noté de désindexation pour d'autres pages qui ne sont pas en duplicate. Seule ma page "partenaires" a été sucrée car elle contenait une dizaine de bannières 468x60


Pour l'instant je continue dans mes actions pour faire en sorte que mes pages soient le plus différentes possibles. Je ne vois rien d'autre. :cry:
 
WRInaute impliqué
Tu parles de contenu mais au niveau de la balise TITLE tu avais aussi changé dans tes essais ?
 
WRInaute accro
Oui, titre et description. C'était ma première action.
Ensuite la structure des liens (avec liens ou avec texte pour les sous-albums non accessible directement)
Le contenu est différent aussi : d'une part 4 photos aléatoires et un message décrivant l'album et d'autre part une description supplémentaire et un texte figé présent sur chaque page.
J'ai aussi fait varier les menus en ajoutant un pavé de liens dans l'un des cas et pas dans l'autre.

Mais je fais peut-être fausse route et c'est sans doute autre chose que du duplicate content.
Peut-être que google a analysé la structure de mon site et qu'il considère tout simplement que ces pages sont des pages profondes et il préfère dans ce cas indexer mes albums plutôt que les photos.

J'imagine une autre piste d'amélioration : ça serait de parser mon contenu propre à chaque photo qui vient de ma base de données et de remplacer systématiquement des mots par des synonymes, de supprimer des mots inutiles comme les articles. Mes deux pages ne contiendraient alors plus de "copié-collé" avec une partie du contenu strictement identique. Mais ce n'est pas évident à faire pour que ça reste lisible pour le visiteur.


Autre piste d'explication : le manque de backlinks externes sur ces pages. Mais comme ce sont des pages profondes ce n'est pas facile d'en obtenir naturellement, surtout si google les enlève de son index.

Et une autre idée si j'étais vraiment certain que la non indexation vient d'un duplicate content, ça serait de mettre l'une des deux pages en "noindex, follow" pour justement éviter ce problème.
 
WRInaute impliqué
La réponse est dans ton histoire de backlink, pas visible avec la commande link ne veut pas dire non indexé.

Je sais pas si ça marche toujours mais tu peux mettre une chaine de caractère unique dans chacune de tes pages par exemple dans le footer un peu comme un numéro de page et ainsi tu cherches ensuite cette chaine via "-http:urltonsite lachaine" je l'ai pas fait depuis longtemps mais cela fonctionnais.

Maintenant penche toi sur le sitemap là tu n'aura plus de question a te poser puisque tu auras les comptes rendus de problème d'accès a ton site par les robots d'indexation GG.
 
WRInaute accro
Le sitemap me dit :
Nombre total d'URL dans le plan Sitemap : 4477
URL indexées dans le plan Sitemap : 718

Mais est-ce que ça peut venir d'une erreur dans le plan sitemap car il y a quelques mois j'ai découpé mon plan en deux en ajoutant un index de sitemap. Mais les trois sont donnés à google ce qui semble le perturber un peu :

Nombre total d'URL : 10542
URL indexées : 1960
Index Sitemap 5271
Sitemap1 4477
sitemap2 794

Le 10542 est faux car il correspond à sitemap1 + sitemap 2 + index sitemap

Est-ce que je devrais simplement fournir l'index et supprimer les deux sitemap indépendants ?
 
WRInaute discret
Bonjour, j'ai des problèmes similaire de duplicate content. Je vais lire le post plus en détail pour voir si je peux être d'une certaine aide.

Avant tout, je vais répondre à la dernière question :

indigene a dit:
Le 10542 est faux car il correspond à sitemap1 + sitemap 2 + index sitemap

Est-ce que je devrais simplement fournir l'index et supprimer les deux sitemap indépendants ?

Pour ce qui est de ne laisser que le sitemap index, je pense qu'il faut supprimer les deux sitemap indépendants : je l'ai fait moi même il y a quelques mois avec quelques réticences et maintenant c'est plus clair sur mon compte google sitemap : un index sitemap avec trois fichiers.

De plus j'ai gzippé chacun des fichiers, ce qui limite la bande passante prise par Google Bot.
 
WRInaute discret
Je viens de parcourir une partie du site et par ailleurs j'aime beaucoup les photos de chats ...

Je ne sais pas si il peut y avoir un problème de duplicate content dans le cas de ce site, vu qu'il présente des images : il est normal que les pages d'un même album se ressemblent. D'autre part lorsqu'il y a duplicate content au sein d'un même site entre 2 pages, il ne doit pas y avoir de suppression des 2 pages de l'index, mais seulement d'une seule des 2 pages.

Il peut y avoir quelques pistes d'amélioration :
- d'une part, lorsqu'il lien doit être construit, pourquoi ne pas mettre systématiquement mettre le numéro de l'album (ce qui doit être possible si les photos sont en base de données), ce qui évitera d'avoir les 2 liens suivants : /photos/photographie.php?photo=1554&album=130 et /photos/photographie.php?photo=1554
- d'autre part il serait possible d'ajouter dans le lien une variable contenant la description de l'image qui ne serait pas utilisée mais seulement utile pour le référencement et la différenciation des pages.

Ces deux améliorations (surtout la première) seront utiles, mais peuvent ne pas suffire à résoudre le problème de désindexation.
 
WRInaute accro
Merci duplex pour ta réponse.

Je ne sais pas si tu as visité le bon site car je n'avais pas donné le lien. Ce n'est pas celui de mon www même si ce dernier le link

Je ne peux pas mettre systématiquement le numéro de l'album car les photos peuvent appartenir à plusieurs albums et notamment l'album "nouveautés" qui contient systématiquement, pendant un temps, toutes les dernières photos. Mettre systématiquement un numéro d'album générerait des doublons dans la fonction de recherche car une photo y apparaitrait plusieurs fois.

Une autre piste : ça pourrait venir du menu qui contient des display=none. Mais dans ce cas tout le site serait pénalisé car le menu apparait sur chaque page.

Une autre voie : les pages photos qui restent dans l'index semble correspondre à celles qui ont des backlinks directs mais je ne suis pas certain de ça.

Une autre piste encore : le menu est devenu trop important par rapport au contenu et il est prépondérant et noie le contenu. Donc deux pages avec des contenus différents se ressembleraient finalement trop pour parraitre différentes au yeux de google. Solution : réduire le menu au minimum ou alors ne conserver même qu'un seul lien "afficher le menu" sur les pages photo qui sont appelées sans notion d'album. Je pense que c'est la solution que je vais adopter dans quelques semaines si les choses ne s'arrangent pas. Comme cela j'aurai les photos dans les albums avec un menu vers tous les autres albums et pour l'album ouvert des liens vers les sous-albums de l'album, et pour une photo seule uniquement un lien vers la galerie.

à suivre...
 
WRInaute discret
Effectivement, je n'avais pas visité le bon site. Quoi qu'il en soit, j'ai le même problème que toi si tu as un problème de duplicate content.

Mon site (celui de ma signature) présente des résultats sportifs et je cherche à différentier deux pages qui sont très proches aussi (comme deux journées d'un championnat de football). Les conséquences sont malgré les 11100 pages visitées par jour par le googlebot, j'ai le nombre de pages indexées qui fluctuent (elles sont passées en un mois de 96000 à 56000 puis maintenant à 80000).

Sinon si tu peux utiliser la réécriture d'url ça peut être une piste d'amélioration aussi.
 
WRInaute accro
Quelques pistes de reflexion (et d'expérience :) ) :

- Google n'aime pas trop les "contenu au hasard". Title au hasard, liens au hasard, citations au hasard... Je sais pas trop comment mais il les détecte et a priori, il aime pas trop..

- Les duplicate content a l'intérieur d'un meme site ne sont pas un probleme : il "saura" quelle est la bonne page. Surement en fonction des BL internes.. et externes ?

- J'ai résolu le problème de l'indexation des photos en insérant un module de commentaires partout où c'est nécessaire : parcours des thumbs, agrandissement de l'image. Les images avec beaucoup de commentaires de la part des internautes sont très appréciées :) Attention au spam néanmoins.

Dans tous les cas de figure, il faut un minimum de mots ( 100 ? 200 ? 300 ? ) pour qu'une photo soit pertinente à ses yeux.

Voila voila..
 
WRInaute accro
mahefarivony a dit:
Quelques pistes de reflexion (et d'expérience :) ) :

- Google n'aime pas trop les "contenu au hasard". Title au hasard, liens au hasard, citations au hasard... Je sais pas trop comment mais il les détecte et a priori, il aime pas trop..

- Les duplicate content a l'intérieur d'un meme site ne sont pas un probleme : il "saura" quelle est la bonne page. Surement en fonction des BL internes.. et externes ?

- J'ai résolu le problème de l'indexation des photos en insérant un module de commentaires partout où c'est nécessaire : parcours des thumbs, agrandissement de l'image. Les images avec beaucoup de commentaires de la part des internautes sont très appréciées :) Attention au spam néanmoins.

Dans tous les cas de figure, il faut un minimum de mots ( 100 ? 200 ? 300 ? ) pour qu'une photo soit pertinente à ses yeux.

Voila voila..
Moi, je crois que GG s'en fiche du duplicate interne, et on peut voir ici que je ne dois pas avoir vraiment tort :
https://www.webrankinfo.com/forum/t/strategie-de-mots-cles-et-spam.86557/
 
WRInaute accro
mahefarivony a dit:
Quelques pistes de reflexion (et d'expérience :) ) :

- Google n'aime pas trop les "contenu au hasard". Title au hasard, liens au hasard, citations au hasard... Je sais pas trop comment mais il les détecte et a priori, il aime pas trop..

Bien entendu ce n'est pas du contenu "au hasard".

Les titres contiennent soit le titre de la photo, soit le titre de la photo et le titre de l'album

Quand je suis dans un album les liens affichés sont les liens vers tous les autres albums et vers les sous-albums de l'album ouvert. Quand je suis sur une photo seule en dehors d'un album j'ai seulement les liens vers les albums principaux mais aucun lien vers les sous-albums puisqu'aucun album est ouvert.

Sur la page principale de la galerie j'ai une photo qui change une fois toutes les heures. C'est pour que les visiteurs qui reviennent aient du changement. Et si google revient plusieurs fois de suite sur cette page en moins d'une heure il ne verra pas de changement.

Pour les 4 images aléatoires qui s'affichent en dessous des photos c'est le même principe et ça change seulement toutes les heures. Les ancres des liens sont les titres des photos qui viennent de la base de donnée, rien de plus.

Les citations c'est toujours les mêmes pour une page donnée (ça dépend du n° de la photo modulo n). Et ce sont des citations en rapport avec la photo donc c'est du contenu utile pour le visiteur.

Ca fait 3 fois que google me supprime une grande partie de mes pages de son index et après chaque modification dans le but de différencier un peu plus mes pages de photo il me les a réintégré à plus 50%

Je vais attendre et voir le résultat de mes dernières modifications.

Est-ce que ça peut être fonction du manque d'activité (au niveau de mes mises à jours) durant les 3 derniers mois ? Pour les deux premières fois ce n'était pas le cas car les mises à jours étaient régulières.

Je me trompe peut-être et ce n'est peut être pas du tout du duplicate content qui me les élimine. C'est bizare, c'est comme s'il me gardait toute la structure du site en me vidant les pages profondes. Ca devient plus qu'une enveloppe de menus sans aucun contenu. :?
:roll:
 
WRInaute discret
Par ailleurs j'ai lu de nombreuses discutions concernant une suppression de nombreuses pages de l'index de google ces dernières semaines.

Des résultats qui ramenaient plusieurs dizaines de millions de résultats en ramènent 10 fois moins maintenant.

Google a peut-être fait un ménage de fin d'année ...
 
Discussions similaires
Haut