Robots.txt et incidents dans le GWT

WRInaute impliqué
Bonjour,

Suite à une superbe formation de webrankinfo (un peu de pub ;)), je suis en train d'effectuer pas mal de modifications.

En ce moment, je m'attaque aux URL en double.
(NB: j'utilise Joomla 1.5.26).

J'ai effectué les modifications sur le site suivant: http://www.grandpalais-immo.fr/

Dans le robots.txt, j'ai rajouté :
Disallow: /recherche.html
Disallow: /contact.html

Maintenant, l'outil GWT m'indique 16 problèmes, et voici les infos:

Avertissements
URL bloquée par le fichier robots.txt (4).
Le sitemap contient des URL qui sont bloquées par le fichier robots.txt. :
16

Valeur : http://www.grandpalais-immo.fr/contact.html - 4 avr. 2012
Valeur : http://www.grandpalais-immo.fr/recherche.html - 4 avr. 2012
Valeur : http://www.grandpalais-immo.fr/contact.html - 3 avr. 2012

Ma question est pourquoi ces avertissements ?

En effet, pour la fiche contact, j'ai les urls suivantes en dupliquées :
http://www.grandpalais-immo.fr/nous-contacter.html
http://www.grandpalais-immo.fr/contact.html
http://www.grandpalais-immo.fr/contact/contactez-nous.html

Bref, pour un premier test, est ce quelqu'un(e) peut me donner son avis ?

D'avance merci :)

@++
 
WRInaute impliqué
Des redirections ?
C'est à dire ?

Car je souhaite juste à éviter que Google m'indexe 3 fois la même page (mais avec un url différent à chaque fois).
 
WRInaute occasionnel
Dans ce cas là, ouvre ton .htaccess et met ça:

RedirectPermanent /nous-contacter.html http://www.grandpalais-immo.fr/contact.html
RedirectPermanent /contact/contactez-nous.html http://www.grandpalais-immo.fr/contact.html

Comme ça /nous-contacter.html et /contact/contactez-nous.html redirige en 301 vers http://www.grandpalais-immo.fr/contact.html. Normalement Google va les desindexer. La je t'ai mis dans le cas ou tu souhaiterais garder http://www.grandpalais-immo.fr/contact.html.

Tu as d'autres solutions:
1) Retirer les pages inutiles et rediriger en 301 les pages retirer vers la page principale. Comme ci-dessus.
2) Tu souhaites laisser les 3 pages de contact accessibles et dans ce cas tu peux soit:
a) Utiliser le robots.txt donc tu met les pages à ne pas explorer comme ceci: Disallow: /contact.html
b) Sinon tu peux utiliser les balises canonical. Tu choisis la page de référence et tu met dans le code source des deux autres la balise suivante: <link rel="canonical" href="http://www.tonsite.com/page-de-reference"/>

Tout dépend ce que tu souhaites faire. Personnellement, je retirerais les inutiles et mettrais des 301.
 
WRInaute impliqué
NickyLarson a dit:
Dans ce cas là, ouvre ton .htaccess et met ça:

RedirectPermanent /nous-contacter.html http://www.grandpalais-immo.fr/contact.html
RedirectPermanent /contact/contactez-nous.html http://www.grandpalais-immo.fr/contact.html

Comme ça /nous-contacter.html et /contact/contactez-nous.html redirige en 301 vers http://www.grandpalais-immo.fr/contact.html. Normalement Google va les desindexer. La je t'ai mis dans le cas ou tu souhaiterais garder http://www.grandpalais-immo.fr/contact.html.

Merci pour l'information.
C'est effectivement ce que j'utilise dés que je modifie le nom d'une url.

Tu as d'autres solutions:
1) Retirer les pages inutiles et rediriger en 301 les pages retirer vers la page principale. Comme ci-dessus.
Réponse juste avant.
2) Tu souhaites laisser les 3 pages de contact accessibles et dans ce cas tu peux soit:
a) Utiliser le robots.txt donc tu met les pages à ne pas explorer comme ceci: Disallow: /contact.html
C'est ce que j'ai fait !!!
b) Sinon tu peux utiliser les balises canonical. Tu choisis la page de référence et tu met dans le code source des deux autres la balise suivante: <link rel="canonical" href="http://www.tonsite.com/page-de-reference"/>
Pas évident avec Joomla :)

Tout dépend ce que tu souhaites faire. Personnellement, je retirerais les inutiles et mettrais des 301.

En gros, j'utilise le point (1) et (2a) actuellement.

Maintenant, est ce que tu pourrais m'en dire plus sur les messages d'avertissement de GWT ?
:)
 
WRInaute occasionnel
Si Joomla n'a pas l'option, tu la rajoute dans le code de la page => Serveur.
Les messages d'avertissement par rapport au robots.txt il te dit juste qu'il n'a pas pu acceder à une page donnée, mais c'est normal car tu lui a bloqué l'accès. T'as pas de soucis à te faire.
 
WRInaute impliqué
Navré pour le retard, et merci pour l'info :)

Ce qui me choque, c'est le gros symbole d'erreur, à coté du sitemap, dans GWT pour indiquer que des urls sont bloqués par un fichier robots.txt :(
 
Nouveau WRInaute
j'ai le même souci mais en pire : pour mes fiches produits en différentes langues (presta 1.3), j'utilise la ré-écriture d'url,
mais le GWT persiste à me dire que j'ai ... 34 680 problèmes dus à URL bloquée par le fichier robots.txt


au début je ne me suis pas inquiété, je pensais que c'est normal, mais à présent, cela fait plusieurs mois qu'il considère cela comme un pb, et je ne sais plus si c'en est un ou pas. y a-t-il une subtilité qui m'aurait échappé ?
 
WRInaute occasionnel
Si tu juges que tu as corrigé le problème, pourquoi n'essayes-tu pas de les "marquer comme corrigées"?
Elles disparaîtront, si elles réapparaissent c'est que tu as du travail à faire sinon c'est OK.
 
Nouveau WRInaute
Bonjour,

en fait, je n'étais pas sûre que ce soit problématique, je voulais me rassurer ^^
il semble que l'affichage des url bloquées ait été modifié, il est moins alarmant qu'avant.

Merci à vous !
 
Discussions similaires
Haut