Eviter le Duplicate Content avec "%20" dans l'url

WRInaute occasionnel
Salut à tous !

J'ai eu la mauvaise surprise tout à l'heure de constater que Google indexe les URL qui commencent par "%20" ! Le site http://www.bacplusdeux.com/spip/article.php3?id_article=237 a mis un lien vers http://%20%20%20%20%20%20%20%20%20%20annuaire.audiencestv.com et du coup je me retrouve avec ça :

URL INCORRECTE MAIS MALGRE TOUT INDEXEE PAR GOOGLE

Je cherche une solution avant de me retrouver avec du duplicate content comme c'est le cas pour ce site :
urls avec %20 => urls sans %20

J'ai essayé la redirection 301 via .htaccess mais ça n'a pas l'air de marcher car il ignore le signe % dans le domaine. Ainsi un :
Code:
RewriteCond %{HTTP_HOST} ^%20
RewriteRule ^(.*) http://annuaire.audiencestv.com/$1  [R=301,L]
n'aura aucun effet :(

D'ailleurs si je vérifie le contenu de la variable HTTP_HOST via PHP, il me dit que c'est égal à "annuaire.audiencestv.com" et non "%20%20%20%20%20%20%20%20%20%20annuaire.audiencestv.com". Comment résoudre le problème si les "%20" ne sont même pas dans les variables d'environnement :?

Si vous avez une solution ce serait vraiment cool :( j'ai pas trop compris pourquoi Google indexe de telles urls. Ce qui est inquiétant c'est que n'importe qui - volontairement ou non - peut apparemment générer du Duplicate Content en faisant un lien vers http://%20www.xxx.com ... et si tous les liens de ce site sont relatifs et non absolus ......... :?


PJ.

PS : Je m'excuse si ce problème a déjà été traité mais impossible de faire une recherche dans les anciens messages du forum car le caractère "%" est ignoré par le moteur de recherche WRI.
 
Nouveau WRInaute
il y a quelque chose que je ne comprends pas :

si google a référencé cette url et qu'il a bien pu lire le titre et le contenu de cette page c'est qu'il a reussi à l'atteindre ...

je ne vois donc pas l'interet de placer un htaccess pour resoudre ce probleme. Je pense que c'est surement parametré à la racine du serveur sinon google n'aurait jamais hité cette page.

en tout cas j'ai essayé de mon côté et j'obtien une belle erreur 404
 
WRInaute occasionnel
cmc a dit:
en tout cas j'ai essayé de mon côté et j'obtien une belle erreur 404
En fait ce qui est bizarre c'est que sous IE6, l'url http://%20annuaire.audiencestv.com marche mais pas sous FireFox. Idem pour l'url http://%20www.webrankinfo.com. Par contre si on essaie http://%20www.google.com eh bien sous les deux navigateurs ça renvoit une erreur 404.

Mais ce qui est certain c'est que Google indexe bel et bien ce type d'url, on ne sait trop pourquoi :
Quelques URL commençant par %20

Ce que j'ai fait pour l'instant pour ne pas propager ce "bug" c'est de placer des liens absolus et non plus relatifs sur toutes les pages de annuaire.audiencestv.com, mais j'espère trouver une solution plus efficace à ce problème :(
 
Discussions similaires
Haut