Connexion page d'erreur : un vrai casse-tête !

WRInaute occasionnel
Salut,

Je me suis aperçu qu'environ 1000 "internautes" par jour 8O passaient par ma page d'erreur (personnalisée) 404... totalisant plus de 2000 hits. J'en ai donc déduit qu'il devait y avoir un problème sur certaines de mes pages, ce qui devait provoquer cette erreur 404.

J'ai mis en place un script sur ma page d'erreur 404 qui met en base de données certaines infos des internautes qui arrivent sur ma page d'erreur 404, infos du type : date, IP, agent, host, referrer, système d'exploitation, navigateur, langue, proxy, nb visite.

Et là je m'aperçois que certains "internautes" sont venus plus de 50 fois sur cette page d'erreur 404 en une seule journée... quel être humain pourrait accepter cela sans partir immédiatement de ce site ? J'en déduit donc qu'il s'agit de crawler, de robot mais le problème c'est que ce n'est jamais la même IP, host, etc... comment les bloquer dans ces conditions ?

Est-ce quelqu'un a une idée ?

Merci pour votre aide.
 
WRInaute occasionnel
curieux, mais un peu difficile de répondre sans avoir d'exemple. Est ce que tu aurais quelques lignes de logs pour voir quels types de pages ils cherchent à joindre.
 
WRInaute occasionnel
Merci pour ta réponse.

Il n'y a pas vraiment de pages précises qu'ils cherchent à joindre, ils passent un peu partout sur mon site et peuvent repasser plus de 30 fois par ma page d'accueil :roll: je pige rien !
 
WRInaute occasionnel
oui je suis certain, c'est une connexion http classique qui n'aboutie pas et qui va générer une connexion 404.
Après empêcher le hotlinking, je ne sais pas. Ça dépend du type de site, de ce que cherchent à faire ceux qui le font, de ce que toi tu souhaites autoriser etc...

Tu pourrais aussi faire une redirection vers une image comportant un texte du genre "désolé cette ressource n'existe plus".
 
WRInaute occasionnel
Si tu as des logs "brut" tu devrais les trouver facilement.

Par exemple dans cette ligne de log:
Code:
85.11.198.146 - - [25/Aug/2010:13:37:15 +0200] "GET /piwik.js HTTP/1.1" 404 270 "http://www.adminoweb.com/articles/article12.html" "Mozilla/5.0 (Windows; U; Windows NT 5.1; sv-SE; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 ( .NET CLR 3.5.3072

Ci-dessus: piwik.js est ce qui n'a pas pu être chargé (pour toi ce seront tes images) et "http://www.adminoweb.com/articles/article12.html" est la page qui a cherchée à l'afficher.
 
WRInaute occasionnel
Si ça peut servir à quelqu'un, j'ai trouvé la cause de toutes ces connexions à ma page d'erreur 404, il s'agissait de la petite icone favicon.ico qui n'existait pas sur mon site, il y a apparement une requête qui la demandait à chaque ouverture de page et s'il ne la trouvait pas ça procurait une erreur 404.

J'ai ajouté cette icone favicon.ico sur mon site et depuis je n'ai pas constaté une seule erreur 404, c'est dingue ce favicon.ico :evil:
 
WRInaute accro
Bonjour,

Un analyseur de log comme AWStats t'aurait donné l'info immédiatement. :wink:

Cela dit, ce que je ne comprends pas, c'est que tu ne voyais pas cette URL du favicon en examinant les données récoltées par le script de ta page 404 (celui dont tu parles dans ton premier post).

Jean-Luc
 
Discussions similaires
Haut