Énormément d'erreurs 404

Discussion dans 'Développement d'un site Web ou d'une appli mobile' créé par mtth, 28 Novembre 2014.

  1. mtth
    mtth WRInaute discret
    Inscrit:
    22 Août 2014
    Messages:
    60
    J'aime reçus:
    0
    Bonjour,

    Je suis en train de créer un site web (il est sur internet) mais impossible de s'inscrire ou quoi que ce soit ... Jai décidé de personnaliser mes pages d'erreurs 404 pour qu'on m'envoie un mail avec comme contenu l'url depuis laquelle on a trouve cette page web. Comme ca je pourrais mieux découvrir le problème ...

    Le problème c'est qu'en 1 jours j'ai eu 60 mails !!! Pourtant je suis a quelques personnes près le seul qui va sur ce site et je ny ai pas été aujourd'hui ... Oke Googlebot peut etre actif mais de la a tomber sur 60 erreurs 404 ca m'étonne. Surtout que il n'y a pas beaucoup de lien qui pointe vers des pages inexistantes ...

    Et puis j'utilise la variable $_SERVER[] en PHP pour savoir quelle était la page précédente et dans 95 % des mails cette valeur est vide


    Quelqu'un peut m'éclairer?

    Merci beaucoup

    Mtth
     
  2. baud74
    baud74 WRInaute impliqué
    Inscrit:
    21 Juillet 2014
    Messages:
    586
    J'aime reçus:
    0
    il faut regarder dans les logs pour savoir d'où viennent ces 404. surement un robot, qui a trouvé une "faille" dans les liens du site.
     
  3. mtth
    mtth WRInaute discret
    Inscrit:
    22 Août 2014
    Messages:
    60
    J'aime reçus:
    0
    Merci mais c'est quoi les 'logs' ? Mercii

    Mtth
     
  4. Axiso
    Axiso WRInaute passionné
    Inscrit:
    8 Avril 2004
    Messages:
    1 209
    J'aime reçus:
    0
    BETA : http://www.bing.com/search?q=logs
    (ben oui, la puissance de Google que tout le monde dénonce à longueur d'année, elle se combat au quotidien. Et j'y peux rien si "GETA" devient donc "BETA" :p )

    Le répertoire où les consulter se trouve sans doute sur ton espace de stockage, le FTP.
     
  5. mtth
    mtth WRInaute discret
    Inscrit:
    22 Août 2014
    Messages:
    60
    J'aime reçus:
    0
    Bonjour,

    Aaain ok vous parlez du error.log
    Ok je ne savais pas qu'il enregistrait les erreurs 404 ...

    Je vais voir par la

    Merci beaucoup

    Mtth
     
  6. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    non le error_log apache enregistre pas les 404 le access_log lui si.
     
  7. mtth
    mtth WRInaute discret
    Inscrit:
    22 Août 2014
    Messages:
    60
    J'aime reçus:
    0
    Ok je vais faire des recherches. Merci pour le tuyau ;-)

    Mtth
     
  8. mtth
    mtth WRInaute discret
    Inscrit:
    22 Août 2014
    Messages:
    60
    J'aime reçus:
    0
    Owww 100 mails en 2 minutes ... :/



    Faut absolument que j'y jetes un coups d'oeil ;-)
     
  9. ybet
    ybet WRInaute accro
    Inscrit:
    22 Novembre 2003
    Messages:
    7 516
    J'aime reçus:
    1
    Petit rappel sur les US et coutumes des visiteurs inutiles.

    D'abord les Chinois qui essayent systématiquement de poster sur les forums sans se connecter ... c'est généralement 3 pages vues, la troisième c'est post.
    Ensuite Russie et Ukraine: idem que les premiers mais aussi: visites de pages provenant d'une page d'un site russe (c'est une farce): leur idée est que les sites francophones publient leurs backlinks et ... recevoir un lien

    Pour ces deux types (souvent le premier), tu va recevoir aussi tout ce qui ressemble à l'Asie (Taiwan, japon, ...) et pour le deuxième tout ce qui ressemble à du communisme: Pologne (et oui même s'ils ont officièlement changé de camps, il reste des irréductibles), bulgarie, létonie, biélorussie, ...

    Pour des bricolages incompréhensibles, il y a les brésiliens: débarquent sur les sites à partir de serveurs ou connexions internent en se faisant passer pour ... Google bot.
    Pour les stupides, il y a toute la panoplie d'Afrique centrale auquel je rajoute Madagascar. Débarquent à toute vitesse pour récupérer avec des logiciels de copie le maximum de pages à toute vitesse: en partie, c'est peut-être excusables: ils profitent peut-être d'une connexion Internet (genre cyber café) pour récupérer des "connaissances".
    Tu peux aussi ajouter le Maroc et l'Algérie dans le même genre mais à dose plus (nettement) plus faible avec de temps en temps des bricolages plus répréhensibles (genre tentative de connexion aux serveurs par SSH: mais là on retrouve plus souvent le trio Chine, Russe, Ukraine).

    Comme je veux pas passer pour racist*e, je poursuit avec les occidentaux (ou assimilés).
    . Afrique du Sud, Israel: en 1 an de tests, jamais eut 1 seul visiteur d'un de ces pays qui n'ait pas tenté un bricolage: A interdire.
    . USA, Germany, Hollande (un des plus gros hébergeur, ayant travaillé avec des hollandais, ce sont des commerciaux: tout ce qui peut rapporter de l'argent est bon à prendre ... et on retrouve souvent des sites russes hébergés sur leur plages). Il y a forcément des crétins dans ces pays (comme partout) mais avec plutôt un système commercial. Un paquet de visites pour récupérer les liens, le contenu. Ca passe par vendre qui fait des liens vers des sites à des analyses du contenu pour essayer de trouver qui fait des mauvais commentaires (surtout américains).

    Les "mails serveurs": des robots qui visitent les sites pour récupérer des adresses mails en clair et les revendre ou les utiliser. La majorité des webmasters pensent forcément aux spécialistes des arnaques (côte d'Ivoire, Burundi, ...). Pourtant, les pays européens ne sont pas en reste (y compris Mea Culpa: des belges). L'Afrique les utilise, les européens les vendent. Et pour une fois, pas de communistes, d'américains, ...

    J'ai pas tout mis, ca serait trop long :wink:

    Et les erreurs 404 :wink:
    Je suppose que tes liens internes sont corrects (petit exemple, sous Windows, pas de distinction des minuscules et majuscules et ... en Linux (utilisé par la majorité des hébergements) oui. Souvent un problème quand on crée le site en local avec Wampserver ou easyPHP).
    Pour des vieux sites qui ont modifié des noms de pages (avec redirection): les bricoleurs ne suivent pas ces redirections (même avec htaccess). Deuxième truc, des serveurs (le plus souvent) piratés vont essayer toutes les failles de sécurité liés aux CMS avec des répertoires spécifiques liés à ces CMS. Comme tu n'utilise pas le CMS, l'adresse n'existe pas et ... erreur 404.

    Pas trop s'inquiéter.

    Comme belge, je serais chauvin en ne mentionnant pas que quelques plages belges ou même françaises (hébergeurs: Iliad, OVH) font aussi un paquet de bricolages.
    Il ya quelques outils qui permettent d'analyser les liens brisés sur un site
    L'adresse du site?
     
  10. ybet
    ybet WRInaute accro
    Inscrit:
    22 Novembre 2003
    Messages:
    7 516
    J'aime reçus:
    1
    J'oubliais les bricoleurs mails: envoi de mails sur chaque nom de domaine en reprenant postmaster@site, info@site, contact@site, site@site.com, ...
    Internet, c'est de plus en plus un brol (nécessaire souvent,pas toujours) :mrgreen:
     
  11. mtth
    mtth WRInaute discret
    Inscrit:
    22 Août 2014
    Messages:
    60
    J'aime reçus:
    0
    Ahaha merci pour ces précisions de " l'autre manière d'utiliser Internet " :p
    Je ne savais pas que Internet etait malheureusement tellement exploité de cette manière ...

    Ca va donc je ne dois pas trop m'inquiéter.

    Mais il n'y que tres peu
    de visiteurs qui viennent de ses pays (d'après Google Analytics) et ils arrivent a me trouver 70 erreurs 404 et une minute et puis plus rien pendant quelques heures et puis rebelote ...

    Pour l'url www.summaries.be . Ce n'est pas le but que vous me disiez ce que vous pensez du site car ce n'est (pas encore) le but: il n'est pas encore prêt! ;-) et le site est en néerlandais et (pas encore!!) de traduction française pour le moment ( oui je suis aussi belge :p )

    Merci

    Mtth
     
  12. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    @ybet,

    Pour les Chinois qui essaient de poster sans se connecter, on peut aussi ajouter ceux qui créent des comptes à la pelle en espérant les utiliser plus tard. Pour un peu, sans savoir, on pourrait croire que le web francophone a un succès fou en Russie, Ukraine et Chine.

    J’ai l’impression que ça se calme avec l’Ukraine … peut‑être des suites de certains événements (mais je m’avance beaucoup là).

    Pour ceux qui se déguisent en GoogleBot, il y aussi des français, hébergés chez OVH (je n’ai même que ces cas de déguisement en GoogleBot).

    Pour ceux qui essaient de scanner les sites pour revendre des informations sur la réputation, je crois que c’est le cas de AhrefsBot, qui dans le passé a opéré depuis l’Ukraine, mais depuis cette année, surtout depuis les États‑Unis : avec 80 connexion simultanés ou un peu plus, il abuse.

    Il y aussi ceux qui testent l’existence d’un accès WebDAV, ou d’autres méthodes HTTP (autres que GET, et HEAD), ce qui est toujours suspect à mes yeux.

    Parfois je me lamente en me disant que sur le web, les robots sont plus actifs que les humains. Ça dépend aussi de la fréquentation d’un site : plus un site est peu fréquenté, plus la proportion de robots nuisibles semble importante, ce qui est logique, et ça laisse l’impression que le site ne semble exister que pour eux (et ça déprime).
     
  13. ybet
    ybet WRInaute accro
    Inscrit:
    22 Novembre 2003
    Messages:
    7 516
    J'aime reçus:
    1
    Chez moi pas mais avec 3 niveaux déblocages progressifs (un avec 403 sur les pages, 1 par htaccess et un dernier en iptables sur le serveur ... les plages russes, chinoises et ukrainiennes dégagent à fait.

    idem qu'au dessus.

    petit outils maison en place depuis 6 mois: tout ce qui fait 3 visites sur des pages différentes en moins de 3 secondes se prend une 403. Pourtant, depuis quelques semaines, petites modif (ils ont du comprendre): chaque fois deux fois la même page avant la suivante.

    Viré effectivement tout ce qui ressemble en user agent à WinDev ... mais surtout bloqué un paquet de plages de serveurs: 1 briciolage à partir d'un serveur et blocage de la plage complète. Les pires: serveurs néerlandandais avec souvent des sites russes, USA, russes, japonais et corée du Sud (je pensais qu'on était en paix avec ceux-là).

    Avec 3 niveaux (paramétrés manuellement), j'en bloque encore tous les jours (en bloquant les petits bricoleurs de copie temporairement): spécialité algérie: première page avec 1 navigateur, tu attend 20 secondes et un autre navigateur de la même IP débute une copie en règle brutale à partir de la page (et bloqué par le premier niveaux).

    Je suis pas un une vedette de la sécurité mais un peu mare de ces bricolages inutiles. De toute façon, tout ce qui semble un peu trop (tentatives ssh, proftpd, ...): interdiction sur le serveur.
     
  14. mtth
    mtth WRInaute discret
    Inscrit:
    22 Août 2014
    Messages:
    60
    J'aime reçus:
    0
    Bonjour,

    J'en avais mare et j'ai donc voulu savoir qui etait derrière tout ca donc j'ai utilisé les variables SERVER et j'ai remarque que le robot s'appelle MJ12bot qui vient de "majestic.co.uk/bot.php" et cest toujours et seulement lui qui passe ... Sur leur site ils mettent qu'il veulent crawler ces sites pour créer " un nouveau moteur de recherche RÉVOLUTIONNAIRE ...". Il y a seulement 2 ou 3 erreurs 404 de la part de GOOGLEBOT ... majestic.co.uk/ dit qu'on peut aussi empêcher ce robot de passer ou bien de limiter le nombre de pages crawlé par secondes ... Bonne ou mauvaise idée?

    En effet moi ca me déprime ... :/ car il y a personne d'autre qui visite mon site sauf ces russes ...

    Bref, merci et bonne soirée

    Mtth
     
  15. ybet
    ybet WRInaute accro
    Inscrit:
    22 Novembre 2003
    Messages:
    7 516
    J'aime reçus:
    1
    mj12 est plus spécifique: il n'y a pas d'adresse dédiée: ca vient de partout.
    là c'est en htaccess
    RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [NC,OR]
    RewriteRule ^.* - [F]
     
  16. mtth
    mtth WRInaute discret
    Inscrit:
    22 Août 2014
    Messages:
    60
    J'aime reçus:
    0
    Oké donc c'est mieux de le bloquer ... ;) merci !
     
Chargement...
Similar Threads - Énormément erreurs 404 Forum Date
Les SERPS bougent énormément! [22/05/2013] Référencement Google 22 Mai 2013
Au secours, mon site régresse énormément Problèmes de référencement spécifiques à vos sites 26 Mars 2013
Comment avoir le rank de son site pour enormement de mot clefs d'un coup? Débuter en référencement 13 Avril 2010
[htaccess] Rediriger toutes les erreurs 404 vers ma home Crawl et indexation Google, sitemaps 30 Janvier 2019
Google Search Console : 2 erreurs ergonomie mobile injustifiées Crawl et indexation Google, sitemaps 20 Décembre 2018
erreurs d'exploration Demandes d'avis et de conseils sur vos sites 5 Novembre 2018
erreurs 404 pour produits supprimés restent dans search console Problèmes de référencement spécifiques à vos sites 2 Octobre 2018
les erreurs 500 Débuter en référencement 1 Octobre 2018
Milliers d'erreurs 404 sur site de petites annonces Débuter en référencement 25 Septembre 2018
Erreurs 500 et désindexation Crawl et indexation Google, sitemaps 18 Juin 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice