Duplicate content, comment s'en débarrasser ?

WRInaute discret
Bonjour !

Sur mon blog (hhtp://www.bout-de-papier.eu) j'ai presque toutes les pages qui sont en duplicate content (enfin je crois bien). J'ai eu beau lire les messages similaire je ne trouve pas de solution qui corresponde à mon cas.
Quelqu'un saurait me dire qu'elle est la source de mon problème et comment le corriger ?

Pour l'histoire : mon problème a commencé suite au craquage de google qui a en ajouter un /note/ à certaines pages. Le problème s'est alors propagé à tout le site passant les pages en duplicate (peut-être que les deux phénoménes ne sont pas liés hein).
J'ai ensuite fait revenir google dans le bon chemin en ajoutant des redirections dans le htaccess...

Si quelqu'un a une idée, merci.
 
WRInaute impliqué
Salut !

Google n'a pas inventé les url doublons, il les a forcément trouvées quelque part.

Soit elles sont accessibles depuis l'extérieur (peu probable), soit elles sont accessibles quelque part en interne... crées par exemple par ton CMS, sans que tu t'en sois rendu compte.
Pour t'aider à faire le nettoyage de ces liens, tu peux utiliser la commande link: sur msn et Yahoo (plus réactifs et exhaustifs que Google).

Sinon, oui, définir des redirects 301 dans des fichiers .htaccess, c'est une bonne méthode pour nettoyer l'index de Google, même si ça prend du temps...

Bon courage !
 
WRInaute discret
Kazhar : C'est déjà le cas pour le blog :s

nza2k : Ca n'est pas un CMS, j'ai tout fait dessus :) Ok je vais continuer avec le htaccess et surveiller de prés l'évolution...

Sinon ça ne pourrait pas venir du fait que certaines pages contiennent peu de texte (car je présente souvent des photos) et que du coup GG les considére comme similaires ?
 
WRInaute discret
Bah google marque à côtés de presque toutes les pages du blog :
- résultat complémentaire
C'est pas ça un contenu dupliqué ? GG croit que ce sont des pages qui n'ont pas de différence par rapport aux autres ?
 
WRInaute accro
Pas trop non.

Une marque de duplicate content, c'est ceci en bas de page de recherche :

Pour limiter les résultats aux pages les plus pertinentes (total : xx), Google a ignoré certaines pages à contenu similaire.
Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.
 
WRInaute discret
Oui alors c'est tout à fait ça mon probléme !

Mais merde, je viens de taper dans google site:www.bout-de-papier.eu et paf tout a été mis à jour !
Y a encore deux jour tout le site était en duplicate !
C'est la google dance ?


AHHAHAHA euphorie !

Merci et désolé pour la fausse annonce :)

Si d'autres personnes tombent sur ce sujet, l'apprentissage est que :
- Les pages en duplicate ne disparaisse que lors d'une google dance (enfin je suppose) !
 
WRInaute accro
Elles ne disparaissent pas lors d'une "google dance" (terme totalement inadéquat car à cause de lui, énormément de monde mélange la remise à jour du pr avec l'ancienne google dance)

Elles disparaissent lorsque les pages considérées comme en duplicate sont à nouveau crawlées et mises à jour dans l'index.
 
WRInaute impliqué
boutdepapier a dit:
Bonjour !
Pour l'histoire : mon problème a commencé suite au craquage de google qui a en ajouter un /note/ à certaines pages. Le problème s'est alors propagé à tout le site passant les pages en duplicate (peut-être que les deux phénoménes ne sont pas liés hein).

Heureux de voir ton problème résolu !

Par curiosité j'aimerai bien toutefois que tu expliques ce passage car je l'ai mal compris apparemment... Je pensais que tu avais retrouvé dans l'index Google des url doublon de type monsite.com/index.php et son doublon monsite.com/index.php/note/ ...

J'ai faux ?
 
WRInaute discret
nza2k : C'étais presque ça ! Vois-tu les pages du blog sont dans : bout-de-papier.eu/blog/ et son générées par le fichier note.php. Le tout sur fond d'url rewritting pour générer de jolies url du type : bout-de-papier.eu/blog/titre-page-_-parametre1-_-paramétre2.html
Pendant mes vacances en Nouvelle-éZélande (détail qui sert à rien, juste à me la péter) google a commencé à indexer les pages avec comme url : bout-de-papier.eu/blog/note/titre-page-_-parametre1-_-paramétre2.html je ne sais comment ni pourquoi. En plus ce faisant le serveur envoyait quand même les pages (sans css ni images puique l'arborescense ne collait plus).
Et là je me suis retrouvé avec tout le site en duplicate qui a dégringolé (de trés bas donc même pas mal...)

Voilà pour l'histoire !
 
X
xescorp
Guest
Il y a peu être eu à problème de rewriting sur le serveur, ou des mises à jours de la version du serveur avec de nouvelles configurations.

Si tu angoisses tu peux faire un rewrite permanent "bout-de-papier.eu/blog/note/" vers "bout-de-papier.eu/blog/$"
 
WRInaute impliqué
boutdepapier a dit:
google a commencé à indexer les pages avec comme url : bout-de-papier.eu/blog/note/titre-page-_-parametre1-_-paramétre2.html je ne sais comment ni pourquoi.

As-tu essayé sur MSN et Yahoo link:bout-de-papier.eu/blog/note/titre-page-_-parametre1-_-paramétre2.html
(avec quelques une de tes url doublon) ? Peut-être pourras-tu trouver d'où viennent ces url ?

Il m'est arrivé de découvrir ainsi des bugs dans mon code (ou dans des scripts open source) après plusieurs mois d'utilisation...
;-)

A toute !
 
WRInaute discret
nza2k :OK pour Yahoo et MSN j'ai rien trouvé...
xescorp : C'est une super solution (c'est ce que j'utilise ;) ) Je vais laissez comme ça vu qu'aujourd'hui ça marche et surveiller le tout !

Merci à tous !
 
Discussions similaires
Haut