robot.txt comment le faire?

passion · 13 Mai 2006

Bonjour,
En allant sur mes stats et regardant mes log, j'ai vu que j'avais des http 404.
De plus, J'ai réalisé ma version française qui est en ligne mais je fais la version anglaise.
J'ai un fait un lien français-anglais (comme la version anglaise n'est pas actualisée....est-il bon de la préciser dans un fichier robot.txt pour éviter que les moteurs suivent ce lien et que mon site en français soit pénalisé)
Je précise que pour ma version anglaise, j'ai pris un nom de domaine aux states....donc qui n'est pas affilié avec la version française proprement dite !
Et je ne sais pas comment faire ce fichier robot...je ne voudrais pas faire une erreur qui me pénaliserait !!!
Y-a -t-il un outil en ligne qui peut aider pour la programmation? (comme un sitemap?)
Question 1: Sur le net, j'ai trouvé ce genre là mais bon, c'est quoi entête..etc...je peux le réaliser sur notepad?
User-agent: *
-Disallow: /cgi-bin/
-Disallow: /tempo/
-Disallow: /perso/
-Disallow: /entravaux/
-Disallow: /abonnes/prix.html
Autre question:
J'avais dans un premier temps, réaliser la version anglaise en sous-domaine en français mais j'ai opter pour un NDD américain pour une meilleure impact sur les moteurs anglophones et donc retirer le sous-domaine.
Question 2: Maintenant dans mes log 404, il reconnait toujours les anciens liens...dois-je le préciser dans le fichier robots?
Question 3: Si je mets mon lien actuel en anglais dans ce fichier robots pourrais-je le retirer une fois ma version anglaise mise en ligne?

jeanluc · 13 Mai 2006

Bonjour,

Que la version anglaise ne soit pas terminée n'est pas gênant pour la version française, car la page d'accueil de la version anglaise existe (pas d'erreur 404 à ce niveau).

Par contre, si tu as des erreurs 404 sur ton site français. Ce n'est pas sûr que robots.txt soit la solution pour ça. D'où proviennent ces erreurs ? de mauvais liens dans tes pages ou de robots qui continuent à visiter d'anciennes adresses ? Si c'est à cause de mauvais liens, il faut corriger tes pages; si c'est à cause de robots, il n'est pas nécessaire de faire quelque chose; ils vont finir par se lasser. :wink:

Attention, c'est robots.txt. Notepad est parfait pour créer robots.txt. robots.txt ne peut contenir que des liens internes à ton site, donc pas l'adresse de ton site US.

Plus d'infos sur robots.txt : Questions du thème : Fichier robots.txt et robots.txt : contenu du fichier.

Jean-Luc

lapi · 13 Mai 2006

Merci jean luc pour ces precisions qui vont aussi m'aider

passion · 13 Mai 2006

Merci de vos précision rapides!
En faite, j'en ai en tout 169 erreurs !!! qui proviennent de mes anciens liens internes que j'avais mis dans un répertoire appelé "english" (pour la version anglaise) et la commande "allinurl" me reconnait toujours ces liens devenus inexistant et dans mes log une grande partie des erreurs viennent de là!
En faite ce que je peux faire..c'est mettre toutes mes lignes d'erreurs et le charger dans un fichier "robots" et ils viendront purifier mes liens, non?
Et rendre mon site à jour, non?

jeanluc · 13 Mai 2006

Je ne vois pas ces liens avec "english" dans Google pour ton site www.voyance-isabel.com. Tu parles d'un autre site ?

Jean-Luc

passion · 13 Mai 2006

Non désolé je me suis peut-être mal exprimé
Dans les logs 404, il me reconnait beaucoup de liens anciens du genre:
-www.voyance-isabel.com/english/psychic.htm
-www.voyance-isabel.com/english/clairvoyance.htm
etc.........................
Et dans la commande "allinurl" j'ai des liens internes que j'avais transformé du genre:
-www.voyance-isabel.com/partenaires_voyance.htm (transformé en ....)
-www.voyance-isabel.com/partenaires.htm
Je les ai changé suite aux lectures que j'avais faite sur WRI concernant le tiret(-) et le (_), voilà..désolé pour ce contre-temps

jeanluc · 13 Mai 2006

A ta place, je ne ferais rien. Juste un peu de patience... Je vois, dans Google, que http://www.voyance-isabel.com/partenaires_voyance.htm existait encore le 5 mai 2006 à 7h GMT! Ça ne fait jamais qu'une semaine...

En tout cas, cela ne fait aucun tort à ton référencement.

Jean-Luc

passion · 13 Mai 2006

merci et pour ce qui est des erreurs 404 dans mes log?

jeanluc · 13 Mai 2006

Une "erreur 404" dans le fichier log n'est, en fait, qu'un code qui indique qu'un visiteur (ici, un robot) a voulu accéder à une page qui n'existe plus. Cela n'a rien de déshonorant et cela n'indique pas non plus un mauvais fonctionnement de ton serveur, car tous les sites du monde suppriment des pages.

Pas de souci, tant qu'il n'y a plus de liens vers ces pages inexistantes dans ton site.

Jean-Luc

passion · 13 Mai 2006

Merci Jean-luc,
Cependant j'ai crée un fichier "robots" pour protéger des pages que je me suis apperçu, sortaient sur la commande "allinurl"