Robots.txt pour éviter le duplicate content sur ma page d'accueil

Nouveau WRInaute
robots.txt pour éviter le duplicate content sur ma page d'ac

Bonjour,

Je viens de remarquer que ma page d'accueil était accessible avec les 3 url:
www.monsite.fr
www.monsite.fr/index.php
www.monsite.fr/index.php?lang=fr

Bien évidemment, Google c'est empressé de référencer ces 3 url avec un contenu et des META identiques...

J'ai donc mis un fichier robots.txt à la racine de mon site:

Code:
User-agent: *
Disallow: /index.php
Disallow: /index.php?lang=fr
Disallow: /index.php?lang=en

2 questions pour les pros:
- ce code est-il bon pour ne garder que la page www.monsite.fr dans les résultats Google
- Dans quelle mesure ce duplicate content m'a t'il porté préjudice jusqu'à maintenant? J'avais l'impression de monter trrrrèèèès lentement en PR pour cette page, est-ce que c'est du en partie à ça?

Merci pour votre aide,

TO
 
WRInaute accro
normalement /index.php?lang=fr et /index.php?lang=en devraient donner 2 contenus différents, donc devant être indexés, non ?
 
Nouveau WRInaute
J'ai voulu faire simple, mais effectivement c'est pas logique:

J'utilise un site Joomla multilingue avec réecriture d'url, mais je ne me suis pas posé la question des duplicate content avant.

Le multilingue crée des duplicate content puisque ma page d'accueil (monsite.fr) est chargée soit en langue française soit en anglais en fonction de la langue du navigateur du visiteur qui arrive dans le site.
Les mêmes contenus sont accessibles depuis un sélecteur de langues qui renvoie soit vers monsite.fr/fr pr les navigateurs français soit vers monsite.fr/en pr les navigateurs anglais.

J'aurais pu effectuer une redirection depuis la page d'accueil monsite.fr, mais c'est un peu bête puisque c'est vers elle que pointent tous les liens de mes partenaires...
J'ai donc simplement mis des balises META différentes pour chacune de ces pages pour éviter le duplicate


La réécriture d'url crée aussi des duplicate content pour chacune de ces pages puisque

monsite.fr/index.php?
est réécrit
monsite.fr/

monsite.fr/index.php?lang=en
réécrit
monsite.fr/en

monsite.fr/index.php?lang=fr
réécrit
monsite.fr/fr

et que toutes ces pages étaient accessibles et référencées par Google (c'est pourquoi j'ai créé ce robots.txt)



Bref, c'était pas vraiment optimisé tout ça... Pensez-vous que c'est mieux maintenant?... enfin si vous avez compris le chmilblic...
 
WRInaute accro
pourquoi avoir besoin du /index.php?lang=fr c'est la page par défaut, non ? donc pour moi il ne devrait y avoir que
www.example.com/ et www.example.com/en

PS : le site à utiliser pour les démos, c'est example.com celui que tu utilises appartient à pagesjaunes et tu leur donnes plein de BL gratuitement :lol:
 
Nouveau WRInaute
T'as raison, ils ont un PR8 sur le .fr depuis le temps que tout le monde fait la même erreur que moi...

Pour www.example.com/ et www.example.com/en t'as aussi raison, j'ai mis ça dans mon .htaccess:

Code:
RedirectPermanent /fr http://www.example.com

Sinon, étant donné que je n'ai pas eu de réponse quand au fichier robots.txt dont je parlais au début de ce topic, j'imagine qu'il doit être bon.

Merci pour l'info

Fini le duplicate, ça va guincher sur Google!

D'ailleurs j'ai encore une petite question:
c'est mieux dans ce cas de faire une redirection de www.example.com/index.php vers www.example.com
OU
de mettre un Disallow: /index.php dans le robots.txt ?
 
Discussions similaires
Haut