Connexion page d'erreur : un vrai casse-tête !

toto2525

WRInaute occasionnel
Salut,

Je me suis aperçu qu'environ 1000 "internautes" par jour 8O passaient par ma page d'erreur (personnalisée) 404... totalisant plus de 2000 hits. J'en ai donc déduit qu'il devait y avoir un problème sur certaines de mes pages, ce qui devait provoquer cette erreur 404.

J'ai mis en place un script sur ma page d'erreur 404 qui met en base de données certaines infos des internautes qui arrivent sur ma page d'erreur 404, infos du type : date, IP, agent, host, referrer, système d'exploitation, navigateur, langue, proxy, nb visite.

Et là je m'aperçois que certains "internautes" sont venus plus de 50 fois sur cette page d'erreur 404 en une seule journée... quel être humain pourrait accepter cela sans partir immédiatement de ce site ? J'en déduit donc qu'il s'agit de crawler, de robot mais le problème c'est que ce n'est jamais la même IP, host, etc... comment les bloquer dans ces conditions ?

Est-ce quelqu'un a une idée ?

Merci pour votre aide.
 

tyv

WRInaute occasionnel
curieux, mais un peu difficile de répondre sans avoir d'exemple. Est ce que tu aurais quelques lignes de logs pour voir quels types de pages ils cherchent à joindre.
 

toto2525

WRInaute occasionnel
Merci pour ta réponse.

Il n'y a pas vraiment de pages précises qu'ils cherchent à joindre, ils passent un peu partout sur mon site et peuvent repasser plus de 30 fois par ma page d'accueil :roll: je pige rien !
 

tyv

WRInaute occasionnel
oui je suis certain, c'est une connexion http classique qui n'aboutie pas et qui va générer une connexion 404.
Après empêcher le hotlinking, je ne sais pas. Ça dépend du type de site, de ce que cherchent à faire ceux qui le font, de ce que toi tu souhaites autoriser etc...

Tu pourrais aussi faire une redirection vers une image comportant un texte du genre "désolé cette ressource n'existe plus".
 

tyv

WRInaute occasionnel
Si tu as des logs "brut" tu devrais les trouver facilement.

Par exemple dans cette ligne de log:
Code:
85.11.198.146 - - [25/Aug/2010:13:37:15 +0200] "GET /piwik.js HTTP/1.1" 404 270 "http://www.adminoweb.com/articles/article12.html" "Mozilla/5.0 (Windows; U; Windows NT 5.1; sv-SE; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 ( .NET CLR 3.5.3072

Ci-dessus: piwik.js est ce qui n'a pas pu être chargé (pour toi ce seront tes images) et "http://www.adminoweb.com/articles/article12.html" est la page qui a cherchée à l'afficher.
 

toto2525

WRInaute occasionnel
Si ça peut servir à quelqu'un, j'ai trouvé la cause de toutes ces connexions à ma page d'erreur 404, il s'agissait de la petite icone favicon.ico qui n'existait pas sur mon site, il y a apparement une requête qui la demandait à chaque ouverture de page et s'il ne la trouvait pas ça procurait une erreur 404.

J'ai ajouté cette icone favicon.ico sur mon site et depuis je n'ai pas constaté une seule erreur 404, c'est dingue ce favicon.ico :evil:
 

jeanluc

WRInaute accro
Bonjour,

Un analyseur de log comme AWStats t'aurait donné l'info immédiatement. :wink:

Cela dit, ce que je ne comprends pas, c'est que tu ne voyais pas cette URL du favicon en examinant les données récoltées par le script de ta page 404 (celui dont tu parles dans ton premier post).

Jean-Luc
 

Discussions similaires

Haut