Crawl de Google erreur 404

vincenzoR · 6 Juillet 2006

Bonjour, j'ai installé CrawlTrack hier, après vérification ce matin, 3 bots sont passés sur mon site (MSN, Google et Exabot).

Ce que je comprend pas c'est qu'ils crawl tous en majorité sur ma page d'erreur 404 :s

J'ai vérifié tous les liens du site, il ne semble pas y avoir d'erreur, rien qui pourrait les mener vers une erreur 404.

Google par exemple ne visite que ma page d'accueil et ma page d'erreur 404.

Vous avez uné idée ?

TOMHTML · 6 Juillet 2006

utilise google sitemaps, ça devrait t'être utile

Yvel · 6 Juillet 2006

un BL mort !??

f_trt · 6 Juillet 2006

Il faut que tu regardes dans tes logs quel page possede le lien qui provoque l'arrivée sur la page 404

A+

e-kiwi · 6 Juillet 2006

vincenzoR, utilises xenu pour voir si tu as des 404 (google -> télécharger xenu)

vincenzoR · 6 Juillet 2006

TOMHTML a dit:
utilise google sitemaps, ça devrait t'être utile

Je l'utilise déjà.

Je télécharge Xenu, je vais essayer.

Par contre, est-ce normal qu'il ne se rende pas plus loin lorsqu'il tombe sur l'erreur 404 ?

vincenzoR · 6 Juillet 2006

Voilà le résultat de Xenu :

-http://www.cr€ations€ns€.com/r€ports/

Je n'ai pas de problèmes, par contre j'ai mes pages qui sont dupliquées avec le PHPSESSID ...

vincenzoR · 7 Juillet 2006

Je viens de revérifier, j'ai les bots Alexa, Yahoo et Google qui sont passés, de nouveau ils s'arrentent à la page erreur 404 ?

C'est bizzare quand, c'est pas dû à l'URL rewriting ?

e-kiwi · 7 Juillet 2006

nom de domaine concerné ?

f_trt · 7 Juillet 2006

vincenzoR a dit:
Je viens de revérifier, j'ai les bots Alexa, Yahoo et Google qui sont passés, de nouveau ils s'arrentent à la page erreur 404 ?

C'est bizzare quand, c'est pas dû à l'URL rewriting ?

Je me repete que disent les logs, s'agit-il d'une url directement appelée par les robots si non de quelle page provient le lien en erreur, tout cela tu le retrouves dans tes logs

A+

vincenzoR · 7 Juillet 2006

Le nom de domaine c'est celui de mon profil.

J'ai vérifié dans mes logs, il semble que les robots essayent d'accéder au fichier robots.txt, lequel n'est pas présent, je l'ai rajouté avec User-agent: * on va voir ce que ça donne.

J'avais aussi un site_map.xml, et google semblait essayer sitemap.xml, j'ai modifié le nom du fichier, à voir aussi.

Merci, je vous informerai de la suite.

e-kiwi · 7 Juillet 2006

je testerai quand ton site sera accéssible ^^

vincenzoR · 7 Juillet 2006

e-kiwi a dit:
je testerai quand ton site sera accéssible ^^

Comment ça ? Il est accessible ...

e-kiwi · 7 Juillet 2006

à 11:03 pas de chez moi, maintenant oui

vincenzoR · 7 Juillet 2006

La puissance d'OVH ... :wink:

Sinon tu as repéré quelque chose ?

e-kiwi · 7 Juillet 2006

je dois pas avoir de bol, il est pas accéssible de chez moi là encore ^^

jeanluc · 7 Juillet 2006

vincenzoR a dit:
J'ai vérifié dans mes logs, il semble que les robots essayent d'accéder au fichier robots.txt, lequel n'est pas présent

Tout robot qui se respecte essaie régulièrement de lire robots.txt. Si le fichier n'existe pas, ça donne une erreur 404. C'est parfaitement normal.

En fait, tu as trouvé toi-même la réponse à ta question.

Jean-Luc

f_trt · 7 Juillet 2006

+1 Jean Luc,

Vincenzor pour te rassurer sur la dispo de ton site chez moi j'accède.

A+

vincenzoR · 7 Juillet 2006

Je vais attendre avec le robots.txt en place, on va voir ce que ça donne.

Merci beaucoup pour vos infos.

vincenzoR · 10 Juillet 2006

Et bien voilà, ça fonctionne beaucoup mieux comme ça, GoogleBot a carwlé toutes les pages de mon site.

Alexa a fait 160 visites, Yahoo, Ask Jeeves, FindLinks, MSN, Exabot et SurveyBot

C'était donc le couple site_map au lieu de sitemap et pas de robots.txt.

Merci à tous, à suivre si vous le souhaitez