Crawl de Google erreur 404

Nouveau WRInaute
Bonjour, j'ai installé CrawlTrack hier, après vérification ce matin, 3 bots sont passés sur mon site (MSN, Google et Exabot).

Ce que je comprend pas c'est qu'ils crawl tous en majorité sur ma page d'erreur 404 :s

J'ai vérifié tous les liens du site, il ne semble pas y avoir d'erreur, rien qui pourrait les mener vers une erreur 404.

Google par exemple ne visite que ma page d'accueil et ma page d'erreur 404.

Vous avez uné idée ?
 
WRInaute impliqué
Il faut que tu regardes dans tes logs quel page possede le lien qui provoque l'arrivée sur la page 404

A+
 
Nouveau WRInaute
TOMHTML a dit:
utilise google sitemaps, ça devrait t'être utile ;)

Je l'utilise déjà.

Je télécharge Xenu, je vais essayer.

Par contre, est-ce normal qu'il ne se rende pas plus loin lorsqu'il tombe sur l'erreur 404 ?
 
Nouveau WRInaute
Voilà le résultat de Xenu :

-http://www.cr€ations€ns€.com/r€ports/

Je n'ai pas de problèmes, par contre j'ai mes pages qui sont dupliquées avec le PHPSESSID ...
 
Nouveau WRInaute
Je viens de revérifier, j'ai les bots Alexa, Yahoo et Google qui sont passés, de nouveau ils s'arrentent à la page erreur 404 ?

C'est bizzare quand, c'est pas dû à l'URL rewriting ?
 
WRInaute impliqué
vincenzoR a dit:
Je viens de revérifier, j'ai les bots Alexa, Yahoo et Google qui sont passés, de nouveau ils s'arrentent à la page erreur 404 ?

C'est bizzare quand, c'est pas dû à l'URL rewriting ?

Je me repete que disent les logs, s'agit-il d'une url directement appelée par les robots si non de quelle page provient le lien en erreur, tout cela tu le retrouves dans tes logs

A+
 
Nouveau WRInaute
Le nom de domaine c'est celui de mon profil.

J'ai vérifié dans mes logs, il semble que les robots essayent d'accéder au fichier robots.txt, lequel n'est pas présent, je l'ai rajouté avec User-agent: * on va voir ce que ça donne.

J'avais aussi un site_map.xml, et google semblait essayer sitemap.xml, j'ai modifié le nom du fichier, à voir aussi.

Merci, je vous informerai de la suite.
 
WRInaute accro
vincenzoR a dit:
J'ai vérifié dans mes logs, il semble que les robots essayent d'accéder au fichier robots.txt, lequel n'est pas présent
Tout robot qui se respecte essaie régulièrement de lire robots.txt. Si le fichier n'existe pas, ça donne une erreur 404. C'est parfaitement normal.

En fait, tu as trouvé toi-même la réponse à ta question. :D

Jean-Luc
 
Nouveau WRInaute
Et bien voilà, ça fonctionne beaucoup mieux comme ça, GoogleBot a carwlé toutes les pages de mon site.

Alexa a fait 160 visites, Yahoo, Ask Jeeves, FindLinks, MSN, Exabot et SurveyBot

C'était donc le couple site_map au lieu de sitemap et pas de robots.txt.

Merci à tous, à suivre si vous le souhaitez
 
Discussions similaires
Haut