Des tonnes d'accès par jour à des pages inexistantes

Discussion dans 'Netlinking, backlinks, liens et redirections' créé par noren, 1 Décembre 2016.

  1. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Bonjour

    Je constate depuis le 24 novembre que j'ai plusieurs bots (proximic, mediapartners-google etc.) qui tentent d'accéder à des URL qui n'existent pas sur mon site.

    Des url sous cette forme :

    monndd.ext/g456
    monndd.ext/s607
    monndd.ext/s3
    monndd.ext/q603

    etc.

    J'ai même le bot mediapartners-google qui essaye d’accéder a ce type d'url également. J'ai vérifié l'ip pour ce bot et c’est bien une IP de google.
    Sachant que sur mon site je n'ai même pas google adsense.

    Exemple de ligne que je retrouve dans mes logs :

    66.249.69.217 http://www.monsite.ext - [24/Nov/2016:10:49:28 +0100] "GET /s653 HTTP/1.1" 301 25 "-" "Mediapartners-Google"
    ou encore
    54.157.55.188 http://www.monsite.ext - [01/Dec/2016:07:38:11 +0100] "GET /k760 HTTP/1.1" 301 25 "-" "Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php)"

    J'a également ce type de ligne :

    150.70.173.51 http://www.monsite.ext - [01/Dec/2016:12:54:50 +0100] "GET /?p=1470452881&subid=999&uid=7FB195643BB2CC91 HTTP/1.1" 301 25 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)"
    50.78.140.221 http://www.monsite.ext - [01/Dec/2016:12:53:19 +0100] "GET /?p=1470452881&subid=999&uid=7FB195643BB2CC91 HTTP/1.1" 301 25 "http://www.monsite.ext" "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML like Gecko) Chrome/54.0.2840.99 Safari/537.36"

    Maintenant j'ai fait en sorte de répondre avec une 404, mais je reste inquiet, ne sachant pas l'origine du problème et les conséquences que cela peut avoir à moyen ou long terme. Surtout que c'est apparu le 24 novembre et ça s’est aggravé depuis

    Pour le moment j'ai l'impression que c'ets surtout les bots suivant qui posent problème :

    mediapartners-google
    proximic
    maxpointinteractive

    Quant au Googlebot aucun soucis il n'essaye pas d'accéder à ce type d'URL
     
  2. patrick_lejeune
    patrick_lejeune WRInaute occasionnel
    Inscrit:
    1 Avril 2016
    Messages:
    462
    J'aime reçus:
    0
    Mediaparters-google= robot régie adsense Google 66.249.69.217=plage Google
    Proximic= robot envoyé par partenaire pub adsense de Google = 54.157.55.188 = effectivement son adresse réelle
    ... à mon avis troisième idem

    Tu est sur que ces adresses fantômes n'affichent pas quelque chose? (Y compris piratage du site).
    Patrick
     
  3. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Qu'entends-tu par "afficher quelque chose" ?

    Moi je vois juste dans mes logs les lignes que j'ai indiqué, par conséquent je n'ai aucun moyen de savoir la source exact. :/

    J'ai au moins 2-3 visites de ce genre par minutes, c'est énorme...
    Et si je comprend bien je peux même pas les bloquer, car si jamais j veux coller du adsense sur mon site, ça va poser problème exact ?
    Le fait de rediriger ces muavaises URL vers une 404 est-ce que ca suffit? :?

    maxpointinteractive c'est aussi un partenaire adsense ? Si c'est le cas le problème semble etre lié avec adsense, hors je n'ai pas encore adsense sur mon site.
     
  4. patrick_lejeune
    patrick_lejeune WRInaute occasionnel
    Inscrit:
    1 Avril 2016
    Messages:
    462
    J'aime reçus:
    0
    l'adresse exacte est inscrite dans le log:
    IP 66.249.69.217 http://www.monsite.ext - [24/Nov/2016:10:49:28 +0100] "GET /s653 HTTP/1.1" 301 25 "-" "Mediapartners-Google"

    adresse IP de provenance: 66.249.69.217
    page visitée: http://www.monsite
    Date
    Par contre, il y a autre chose de louche (en relisant):
    Get /s653 (une requète par GET vers la page s653 (genre index.php?XXX=s653)
    avec comme résultat 301 (erreur), je présume
    sur le port 25 ???? (=port de sortie pour les mails)
    Pour le 301, je suis presque sûr. Beaucoup moins pour le numéro de port

    En deuxième, mediapartners et proximix ne viennent sur une page QUE SI UNE PUB du réseau adsence est présente.

    Faudra attendre d'autres avis plus éclairés

    PS: 150.70.173.51 est une adresse ip de TREND Micro (une entreprise japonaise qui édite un antivirus OFFICIEL)
     
  5. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Comment dans ce cas retrouver la source du problème ?

    Avec les adresses IP ca ne donnera rien vu que ca correspond bien à proximic et mediapartners-google.
    Le port 25 correspond de base a SMTP. Ou peut etre telnet ? mais comment dois je interpréter ici ?

    Sachant que les pages auxquels ils essayent d'accéder n'existent pas et elles sont toutes sous la meme forme http://www.monsite.ext/unelettreetunesuitedechiffre

    Donc la actuellement je ne vois pas où chercher ?, et je redirige donc pour le moment ces accès en 404, est-ce suffisant ? quels sont les risques ?
     
  6. anemone-clown
    anemone-clown WRInaute passionné
    Inscrit:
    11 Novembre 2007
    Messages:
    1 719
    J'aime reçus:
    1
    Les liens auxquels tentent d'accéder ces robots existent quelque part sur ton site (ou ailleurs). C'est parfois le cas avec des liens "construits" dans le code Javascript ou des formulaires (peut être ton cas avec un Get) que les robots peuvent mal interpréter : il serait donc judicieux de piéger l'origine de ces liens en testant le referrer (ce n'est pas forcément probant mais ça donne des pistes parfois) et inscrire tout cela dans un fichier texte plus lisible que des logs.

    De mon côté, j'ai créé un petit script dans le code php qui écrit (plus ou moins bien... :roll: ) des règles de ré-écriture prédigérées comme :
    Code:
    RewriteRule ^definition-9221-mycorhize.html/RK=0/\.html	https://www.aquaportail.com/definition-9221-mycorhize.html [R=301,L]
    
    Une erreur aujourd'hui : j'attends 3-4 jours (pour voir si l'erreur se répète ou se généralise ou reste anecdotique) pour éventuellement insérer une règle en 301 quelque part dans le site.

    Autre cas aujourd'hui :
    Code:
    RewriteRule ^definition-2508-méristique\.html	https://www.aquaportail.com/definition-2508-meristique.html [R=301,L]
    RewriteRule ^definition-3831-étiologie\.html	https://www.aquaportail.com/definition-3831-etiologie.html [R=301,L]
    
    C'est un problème de caractères accentués dans le lien (et ça ne vient pas de "chez moi" : je vais créer une règle qui teste la présence de caractères accentués dans l'URI pour rediriger automatiquement vers la canonique).

    Si tu sais manipuler ta plateforme, ce n'est pas bien compliqué de collectionner les mauvaises URI ($_SERVER['REQUEST_URI']) avec le Referrer : un script de quelques lignes suffit.

    En revanche, "j'aime bien" ces mauvaises urls : ça me permet de relire des pages du site ... :mrgreen: et de les améliorer quand c'est possible (ce qui sera fait pour les 3 cas en exemple).
     
  7. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Ce qui me laisse a penser que ça ne vient pas directement de mon site c'est que je n'ai tout simplement aucun script google adsense sur le site en question, donc aucune raison d'avoir autant de mediaparners-google etc.

    De plus quand je regarde mes logs je ne vois rien de suspect avec le googlebot, il ne visite a priori aucune page de ce genre.
    Par contre d'après le google webmaster tools il m'indique qu'il explore plus de 600 voir parfois plus de 900 pages par jours, hors je n'ai pas plus de 200 pages sur mon site (si on ne compte pas les images).
    Est-ce que dans le Google webmaster tools il prend en considération les images (et donc l'exploration de google-image) ? car dans ce cas ces valeurs pourraient se justifier etant donné que j'ai pas mal d'images dans chaque article.

    De plus ca fait pas loin de 10 jours que mes 2 derniers articles ne s'indexent pas. Meme si je force l’exploration (et l'indexation), ils sont bien indexés puis quelques temps après ils sont à nouveau desindexés.

    Est-il possible que google et autres bots en visitant un autre site pensent visiter mon site ? a cause d'une utilisation d'iframe ou autre technique utilisés par le spammeurs et pirates pour copier a la volé un site

    J'ai vérifié également pour voir si les 100 derniers jours un fichier avait été modifié ou ajouté sur mon ftp et je n'ai rien vu de suspect.

    Dans ce cas pour trouver le referer ca va pas etre simple
     
  8. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Bon j'ai vérifié et lorsque dans le GWT ca m'indique plus de 900 pages explorées, dans mes logs je ne vois pas plus de 250 pages explorées par googlebot (images comprises)...

    J'y comprend rien.

    J'ai fait un log qui récupère toutes les 404 ainsi que le referer et ca donne rien. Le referer est vide

    De plus maintenant dans les logs ca n'indique plus 25 mais 570 :

    Code:
    64.20.243.132 www.monsite.ext - [05/Dec/2016:12:22:13 +0100] "GET /q679 HTTP/1.1" 404 570 "-" "MaxPointCrawler/Nutch-1.10 (maxpoint.crawler at maxpointinteractive dot com)
    Des fois pendnat 2-3 minutes je n'ai aucune visite de ce genre et parfois j'en ai une dizaine d'affilé. ca dure maintenant depuis le 24 novembre !
     
  9. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    J'ai aussi pas mal de visites avec ces ip

    137.74.122.5
    137.74.122.3
    137.74.122.35
    137.74.122.36

    Avec des user-agent de type proximic également, ou comme ceci "Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36"

    Comment savoir si ces ip sont douteuses ou appartiennent également a un organisme lié également a adsense etc.

    le whois ip me donne ceci :

    Organization Beyond Excellent Technology Ltd
    ISP Beyond Excellent Technology Ltd
    AS Number AS16276 OVH

    PS : j'ai encore essayé de forcer l'indexation d'un de mes dernier articles via le GWT, j'ai bien vu que Googlebot est passé sur ma page, mais elle n'est toujours pas indexée...
     
  10. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Bon je viens également d'essayer de mettre mon site en maintenance (avec erreur 503) mais toujours le même soucis les bots proximic, mediapartners, maxpointinteractive et getindent continuent d'essayer d'aller sur ces URL inexistantes (biensur ca leur renvoi une erreur 503). Ce n’est jamais les mêmes url.

    Il y a vraiment de très fortes chances que ce probleme vient de l'extérieur et non en interne. Il doit y avoir un p*tain de site qui doit renvoyer ces bots chez moi, je ne vois pas d'autres explications pour le moment. Mais comment l'identifier!

    Arf ca devient catastrophique, googlebot commence a s'y mettre :

    Code:
    66.249.69.43 www.monsite.ext - [05/Dec/2016:13:52:57 +0100] "GET /s328 HTTP/1.1" 404 570 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    :? :(

    Google va donc avoir sur mon site des milliers d'erreurs 404, mon site va etre extrêmement polluer et je ne vois absolument pas d'ou vient la source du probleme
     
  11. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Je viens également d'utiliser l'outil d'audit seo sur myrankingmetrics.com pour voir si il detectait des URL non désirées, et RAS
     
  12. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Alors actuellement pas mal de sites chez OVH sont hors service et on a une belle page 503 (site en maintenance) générée directement par OVH. On ne peut même plus accéder a son FTP non plus.

    Pourtant je remarque toujours dans mes logs des tentatives d'accès de la part de mediapartners-google etc. à des pages inexistantes sur mon site.
    Si le problème venait de mon site et de mon script (voir même d'un hack interne), le site étant actuellement hors service, le problème aurait du également temporairement s’arrêter, non ?

    Ca confirme que le soucis vient bien de l’extérieur ? si c'est bien le cas, maintenant, comment trouver la source du problème ?
     
  13. patrick_lejeune
    patrick_lejeune WRInaute occasionnel
    Inscrit:
    1 Avril 2016
    Messages:
    462
    J'aime reçus:
    0
  14. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Non je crois que tout est lié

    je suis tombé la dessus dans mes logs :

    Code:
    172.243.110.87 www.monsite.ext - [05/Dec/2016:20:05:18 +0100] "GET /?p=1470452881&subid=524&uid=38848A0E9FC84583 HTTP/1.1" 404 570 "http://209.222.109.19/api/getlinks.php?click=XXXXXXX&type=v&spoof_domain=www.monsite.ext&land_ip=148.251.154.205&group=G1&subid=XXX&uid=XXXXXXXXXXX" "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; Touch; rv:11.0) like Gecko"
    Attaque spoof domain, ça pourrait coïncider ? et si oui comment confirmer que c’est bien ça (quel test faire) ? a quoi ça correspond exactement ? et ensuite comment le stopper ?

    Ca pourrai expliquer que mes derniers articles ne s'indexe pas, que dans le WGt je vois un grand nombre de pages explorées alors que je ne constate rien dans mes logs, et qu'il y ai ses fausses URL, non ?

    DNS Spoofing », « DNS Cache Poisonning » ?
     
  15. patrick_lejeune
    patrick_lejeune WRInaute occasionnel
    Inscrit:
    1 Avril 2016
    Messages:
    462
    J'aime reçus:
    0
    Ca pourrai expliquer que mes derniers articles ne s'indexe pas, que dans le WGt je vois un grand nombre de pages explorées alors que je ne constate rien dans mes logs, et qu'il y ai ses fausses URL, non ?

    DNS Spoofing », « DNS Cache Poisonning » ?[/quote]

    Bien grand mots, mais avant, faut essayer de comprendre. En premier, si tu as des visites dans les log SERVEUR, c'est une visite sur TON serveur (et pas sur un autre qui aurait détourné le site sur un autre).
    En MP, t'envoie l'adresse IP du site, vérifie si c'est bien celle de ton hébergement :wink:
    En deuxième, analyser les fichiers log serveurs est toujours difficile. Je peux modifier mon petits outils de tests "anti-crapu*lles" pour ne récupérer que les réels accès sur tes pages (hors blocage des copieurs, robots, ...).
    En troisième: la question se pose, est ce que le serveur a été piraté?
     
  16. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Bon j'ai essayé la protection DNSSEC (OVH le propose); Il s'agit d'une protection contre le cache poisoning et le dns spoofing, mais a priori ca ne change rien, j'ai toujours ces visites des bots (proximic, mediapartners-google etc.)

    L'adresse IP que tu m'as envoyé en MP correspond bien à celle de mon serveur.

    De mon côté :

    - j'ai fait un scan de mon site avec myrankingmetrics.com, et cet outil ne m'a détecté aucune mauvaise URL
    - J'ai utilisé pas mal d'outil comme virustotal et de 2-3 autres outils idem. ils n'ont rien détecté.
    - Quand je regarde le code source de mes pages html générées je ne vois rien de suspect non plus. J'ai également vérifié les derniers fichiers ajoutés et modifiés de ces 100 derniers jours et idem rien de suspect.
    - J'ai vérifié les logs FTP fournis par OVh sur les 4 derniers mois et rien de suspect non plus
    - J'ai vérifié mes logs persos qui sont créés en cas de tentatives d'injection et d'attaques de force brute, RAS
    - De plus si c’était mon code qui créait tout seul ces mauvaises url (a cause de lignes mal codées en JS ou je ne sais quoi) il n'y aurait aucune raison d'avoir des bots adsense étant donné que je ne met aucun script adsense sur mon site.

    Ce que je comprend pas, c'est qu'hier pendant plus d'une heure pas mal de sites chez OVH étaient hors service et le mien compris. meme le FTP était inaccessible et pourtant les visites des proximic, mediapartners etc. ont continué (ca créait des erreur 503, mais il essayaient tout de meme d'accéder à ces pages inexistantes).
    Si ca venait directement de mon site et d'une faille exploitée, lorsque les serveurs d'OVH étaient HS les visites anormales auraient du stoppées non ?

    Tout porte à croire que ces visites sont provoquées par un élément externe. Est-il possible qu'un site extérieur (ou je ne sais quoi : via telnet etc.) renvoi les bots de adsense etc. sur mon site ?

    Ce qui inquiète également c'est ceci :

    Code:
    172.243.110.87 www.monsite.ext - [05/Dec/2016:20:05:18 +0100] "GET /?p=1470452881&subid=524&uid=38848A0E9FC84583 HTTP/1.1" 404 570 "http://209.222.109.19/api/getlinks.php?click=XXXXXXX&type=v&spoof_domain=www.monsite.ext&land_ip=148.251.154.205&group=G1&subid=XXX&uid=XXXXXXXXXXX" "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; Touch; rv:11.0) like Gecko"
    Cette histoire de spoof domain semble être une réelle piste, mais si le DNSSEC ne change rien, ce n'est pas logique non plus.
    Comment expliquer que dans le GWT, ca m'indique que Google à explorer plus de 900 pages, alors que dans mes logs d'OVH il a visité tout juste une centaine de page ? (Prend t-il en compte les visites de mediapartners-google? ca m'étonnerait vu que c'est adsense). C'est comme si google exploraient des pages quelquepart en pensant qu'il s'agit de mon site.

    Voilà d'autres lignes suspectes :

    Code:
    66.249.69.6 www.gameophage.com - [07/Dec/2016:05:25:00 +0100] "GET /.well-known/apple-app-site-association HTTP/1.1" 301 223 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    137.74.122.36 www.gameophage.com - [07/Dec/2016:05:25:01 +0100] "GET /.well-known/apple-app-site-association HTTP/1.1" 404 570 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    On voit que le google bot essaye d'accéder a cette page .well-known/apple-app-site-association 'rien d'anormal il me semble c'est un soucis avec IOS)
    Mais par contre juste après c'est cette ip 137.74.122.36 qui se fait passé pour le googlebot et qui essaye d'accéder au meme fichier

    Autre chose de bizarre, quand j'essaye de bloquer les ip suivantes via le .htaccess ca ne marche pas, elles passent toujours :

    Code:
    order allow,deny
    deny from 137.74.122.3
    deny from 137.74.122.35
    deny from 137.74.122.36
    deny from 137.74.122.5
    deny from 137.74.120.4
    deny from 137.74.120.5
    deny from 137.74.120.37
    deny from 137.74.120.35
    deny from 137.74.120.36
    allow from all
    Donc pour l'instant j'en suis toujours au meme point
     
  17. patrick_lejeune
    patrick_lejeune WRInaute occasionnel
    Inscrit:
    1 Avril 2016
    Messages:
    462
    J'aime reçus:
    0
    Te rassure, jamais eut ce type de problème sur mes sites :wink: Pourtant, sur tous les membres de WRI, suis probablement le plus en avance sur la suppression des bricolages et de bricoleurs.
    Personnellement, suis pas un spécialiste de l'étude des fichiers logs: erreur et accès (en plus, le fichier reprend tous les fichiers intégrés comme les images: difficile à réellement analyser).

    On va découper le problème.
    1. Je suppose que les erreurs 404 (pages inexistantes) sont renvoyées vers une page spécifique. Je sais pas ce que tu utilise comme système de stats (Google analytic, Xiti, ...). Met le code du système de stat sur cette page. Si ce n'est pas le cas, crée une page erreur-404.php (en no-index, no follow pour les moteurs) et en .htaccess renvoie ces erreurs avec la commande
    Ca va permettre deux choses: voire les erreurs 404 (page qui n'existe pas) et les accès (selon le script de stat utilisé on peut trouvé "parfois" les pages de références).
    2. bloquer les bricolages.
    Quand je dis que je suis très en avance pour la protection de sites (même trop parfois :oops: ), il y a des techniques de programmation qui permettent certaines choses (y compris virer les bricolages.
    . Pages complètement statiques sans paramètres, a insérer en tout début:
    Dès qu'il y a paramètre -> erreur 403 (forbiden)
    ou (plus dangereux mais plus friendly)

    Cette méthode renvoie en erreur 301 (redirection permanents) vers la page réelle. Te conseille (si c'est possible) de mettre ce code en début de quelques pages.
    Remarque les //include ('../tests-ip.php'); (en commentaires donc pas exécutés). Ce script est très violent dans mon cas, pas trop le temps de le réduire dans ton cas puisqu'il reprend les visituers (ip, host, ...), bloque les parasites, ...
    Je regarderais si c'est nécessaire pour qu'il ne reprenne en MySQL que les visiteurs (réels ou robots).
     
  18. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    J'ai ajouté le script Analytics sur ma page 404 mais pour le moment toutes les visites sur les pages en 404 ne s'ajoutent pas dans GG analytics. Analutics ne prend pas en compte les bots dans les stats, et c'est surtout les bots (mediapartners etc.) qui vont sur les pages 404 suspectes.
    J'en ai choppé un mais en referer ca m'indique "direct"

    Résultat ca n'abouti à rien :/

    ce que tu propose ensuite, c’est de détecter sur mes pages, si on essaye d'y accéder avec des paramètres en get non désiré et si c’est le cas de renvoyer un 403 puis de récupérer l'IP exact ?

    Mais la pareille, l'ip que je récupère c'est celle des bots, et a priori se sont des IP officielles de ces bots. Donc je ne pourrais rien tirer des IP. De plus le referer est vide.
    Actuellement je me crée déjà un log : lorsqu'on essaye d'accéder a une page inexistante, j'affiche ma 404 et j'enregistre dans le log le referer la page cible et l'IP. Mais comme indiqué l'IP et le referer ne sont pas exploitables :(
     
  19. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    C’est bien plus grave.

    Googlebot passe de moins en moins sur mon site. Il visite pas plus d'une 50aine de pages (images comprises et d’après mes logs d'OVH) dans la journée alors qu'il en visitait au moins 10 fois plus.
    Soit ses explorations partent ailleurs (chez le pirate) soit GG a détecté un soucis et explore beaucoup moins mon site.

    P*tain j'ai vraiment besoin d'aide là pour identifier cette merde.
     
  20. elji
    elji WRInaute occasionnel
    Inscrit:
    6 Juin 2009
    Messages:
    265
    J'aime reçus:
    0
    Je crois que si cela m'arrivait je ferais un test pour en savoir plus.
    Je créérais une page qui n'existe pas, mais qui est régulièrement appelé par les robots, une page avec un contenu bidon et sans aucun backlink, et je regarderais très finement les logs de cette page, en cherchant le referrer.
     
  21. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Les pages appelées par les robots sont constamment différentes. Même si j'en crée une ils ne repasseront jamais dessus. :/
     
  22. patrick_lejeune
    patrick_lejeune WRInaute occasionnel
    Inscrit:
    1 Avril 2016
    Messages:
    462
    J'aime reçus:
    0
    Noren tu sais que j'ai nettement mieux pour bloquer les robots, copieurs automatiques, ... et autres bricoleurs. Malheureusement, ce script PHP - MySQL est un peu lourd et risquerait de bloquer des visiteurs standards (en plus qu'il discosie les réels robots (Google, msn, Yahoo et quelques mineurs) des autres. Plus de la moitié des visiteurs d'un site belge ou français viennent de Russie, Ukraine, Chine, Taiwan ...
    Réduire le développement prend du temps (et c'était pas prévu dans mon planning ni avec mes problèmes de santé) :wink:
    Laisse moi quelque jours, c'est beaucoup de travail: surtout que dans ton cas je ne dois pas discossier les visiteurs des robots. Pas contre, pas de javascript -> tout ce qui lit le code est repris dans une table. Depuis 2003, j'ai la réputation d'être un webmaster un peu fou (me souvient d'un post qui m'était destiné: avec tes bricolages et tests, Google finira par t'en coller une).

    Je suis pas sûr que ces parasitages réduisent les visitent des robots de Google. Par principe, un peu comme Zeb, je bloque tout ce qui bouffe ma bande passante mais mes bricolages sont toujours un peu apprenti sorcier.
    Par curiosité, le site descend en visiteurs ou non?
     
  23. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    c'est sympas, malheureusement j'ai bien peur que la seule chose que l'on bloquera c'est des IP de mediapartenrs-google, proximic etc., en gros des IP valides que je ne souhaite pas bloquer. Je compte un jour ajouter adsense, mieux vaut que les bots ce jour la puisse passer sur mon site.

    J'ai regardé mes logs en long en large et en travers j'ai essayé de bloquer toutes les IP douteuses et ca n'a rien changé.

    Il y a même des Ip que j'ai essayé de bloqué via le .htaccess et qui passent quand même 8O

    Honnêtement je ne suis pas forcément un expert, mais je dois avouer que le problème actuel me dépasse réellement.

    La pour le moment j'ai interdit l'exploration via le robots.txt a quelques robots de façon temporaire en attendant de trouver une solution. Mais ca ne suffit pas.

    Ca fait plus d'une semaine que je suis dessus a temps plein et je n'aboutis a aucun résultat concluant

    Dans mes logs créés dans le cas d'une 404 j’obtiens des tonnes de lignes de ce genre ;

    Code:
    2016-12-08 22:44:03 : http://www.monsite.ext/s582
    IP : 108.59.8.14 REFERER : 
    
    2016-12-08 22:48:05 : http://www.monsite.ext/k740
    IP : 52.3.250.2 REFERER : 
    
    2016-12-08 22:52:56 : http://www.monsite.ext/f330
    IP : 52.71.155.178 REFERER : 
    
    2016-12-08 22:56:43 : http://www.monsite.ext/s866
    IP : 75.98.9.249 REFERER : 
    
    2016-12-08 23:02:37 : http://www.monsite.ext/?p=xxxx&subid=xxx&uid=xxxxxxxx
    IP : 50.204.187.62 REFERER : http://www.monsite.ext
    
    2016-12-08 23:02:39 : http://www.monsite.ext/k129
    IP : 54.191.54.79 REFERER : 
    
    2016-12-08 23:03:36 : http://www.monsite.ext/f279
    IP : 54.213.233.41 REFERER :
    
    2016-12-08 23:06:02 : http://www.monsite.ext/s480
    IP : 206.16.134.24 REFERER :
    
    2016-12-08 23:07:34 : http://www.monsite.ext/s744
    IP : 198.148.15.20 REFERER : 
    
    2016-12-08 23:17:47 : http://www.monsite.ext/k737
    IP : 52.53.165.75 REFERER : 
    
    2016-12-08 23:26:41 : http://www.monsite.ext/s545
    IP : 54.149.102.224 REFERER :
    Et encore j'ai bloqué temporairement mediapartners, proximic etc.

    C'est loin d'être le pire j'ai également des trucs comme ça :

    Dans les lignes suivantes on voit que L'utilisateur 142.169.82.109 a fait une recherche sur https://www.google.ca/ pour atterrir sur la page http://www.monsite.ext/pageA et pourtant les images, css et js incluses dans cette page sont appelées par 137.74.122.XX

    Ces adresses IP 137.74.122.XX reviennent très souvent et les bloquer via le .htaccess ne fonctionne pas.

    Code:
    142.169.82.109 www.monsite.ext - [08/Dec/2016:17:45:50 +0100] "GET /pageA HTTP/1.1" 200 8592 "https://www.google.ca/" "Mozilla/5.0 (Linux; Android 6.0.1; SM-G930W8 Build/MMB29K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.85 Mobile Safari/537.36"
    
    137.74.122.36 www.monsite.ext - [08/Dec/2016:17:45:50 +0100] "GET /statique/bootstrap/css/bootstrap.min.css HTTP/1.1" 200 18717 "http://www.monsite.ext/pageA" "Mozilla/5.0 (Linux; Android 6.0.1; SM-G930W8 Build/MMB29K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.85 Mobile Safari/537.36"
    
    137.74.122.35 www.monsite.ext - [08/Dec/2016:17:45:50 +0100] "GET /statique/css/style.css HTTP/1.1" 200 2874 "http://www.monsite.ext/pageA" "Mozilla/5.0 (Linux; Android 6.0.1; SM-G930W8 Build/MMB29K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.85 Mobile Safari/537.36" 
    
    etc.
    
    Normalement les éléments de la page : images, css etc. devraient également être appelés par 142.169.82.109 :roll:

    Oui le site descend un peu en visiteur. Mais pour le moment il en a pas beaucoup non plus.
     
  24. elji
    elji WRInaute occasionnel
    Inscrit:
    6 Juin 2009
    Messages:
    265
    J'aime reçus:
    0
    Voilà une info intéressante.
    Le robot n'est donc pas complètement abruti. S'il a vu qu'une page n'existait pas, il n'essaie pas d'y revenir.

    Je n'ai pas de solution pour ton problème, mais je te conseille pourtant de ne pas y consacrer trop de temps. Je suis moi aussi chez OVH, et je regarde de temps en temps les rapports d'erreurs dans les logs, et chaque fois, j'y vois des trucs que je comprend pas.

    Lundi, j'ai eu un max d'erreur FastCGI. Tous les jours, j'ai une poignée de trucs genre :

    Code:
    [Thu Dec 08 17:20:30 2016] [error] [client 207.46.13.181] [host www.monsite.com] (36)File name too long: access to /actu/unea\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\xa0\xc3\xa2\xe2\x82\xac\xe2\x84\xa2\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc2\xa0\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\xa2\xe2\x80\x9e\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\xa0\xc3\xa2\xe2\x82\xac\xe2\x84\xa2\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x82\xc2\xa2\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xac\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc2\xa6\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa1\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xac\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\xa0\xc3\xa2\xe2\x82\xac\xe2\x84\xa2\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x82\xc2\xa2\xc3\x83\xc2\xa2\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x82\xc2\xac\xc3\x83\xe2\x80\xa6\xc3\x82\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xac\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xb9ctu.php failed
    Je veux consacrer mon temps à ce qui me rapporte, alors je regarde le nombre de visteurs uniques, le nombre de gens qui cliquent sur les pages, et s'il se passe des choses étranges sur mon serveur, il s'en passe aussi dans les terrains vagues et les caves des HLM.
     
  25. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Je peux difficilement fermer les yeux sur ce qui se passe. D'autant plus que le problème semble empirer chaque jour.
    Ca semble également impacter le taux de crawl de Googlebot, l'indexation de mes pages etc.
    De plus si un jour je compte ajouter adsense sur mes pages, je ne voudrais pas être blacklisté parce que les bots d'adsense détectes un comportement anormal sur mon site.

    Je ne suis pas du genre a m'inquiéter pour quelques visites ou erreurs inexpliquées que je constate dans mes logs. La le problème semble bien plus grave

    Vu mes logs j'ai de bonnes raisons de m'inquiéter, et j'ai rarement pris un problème autant au sérieux.

    lorsque je force l'exploration de mes pages via le GWT (Google search console) , je vois bien dans mes logs l'Ip de google puis dès qu'il charge mes images, css et js c'est une ip du type 137.74.122.X qui prend le relais et se fait passé pour google dans le user-agent

    idem lorsque quelqu'un fait une recherche via un google autre que google.fr par exemple
     
  26. elji
    elji WRInaute occasionnel
    Inscrit:
    6 Juin 2009
    Messages:
    265
    J'aime reçus:
    0
    Suite à cette discussion, je viens de regarder dans le détail mes 404, et j'y ai trouvé les anomalies suivantes. Tous des trucs qui n'ont jamais existé sur mon site.

    Code:
    /browserconfig.xml
    /wp-login.php
    /apple-app-site-association
    /.well-known/assetlinks.json
    /.well-known/dnt-policy.txt
    /actu/2015/includes/commands.php/ 
    /actu/2015/main.php
    /actu/2015/login.php
    /actu/2015/css/table_view.css
    /actu/2015/css/ 
    /actu/2015/gate.php/
    /actu/2015/statistics.php
    /actu/2015/img/banners
    /actu/2015/tmp/logs/
    /actu/2015/app/
    /actu/2015/lib/
    /actu/2015/tmp
    /login.php
    /actu/2015/back.css 
    /actu/login.php
    /panel/login.php
    /adform/IFrameManager.html
    /actu/2015/graphics/banner.png 
    /actu/2015/login.php?op=login
    /actu/2015/style.css
    /xmlrpc.php
    /google_matched_content_whitelist.txt 
    /license.php
    /this.options%5bthis.selectedindex%5d.value%3b'%3e
    /actu/wp-login.php
    /%3Cbr
    
    Tout ça, c'est de ce matin. J'ai eu 124 erreurs 404 entre minuit et midi. Celui qui revient le plus est l'appel à la page d'admin de WP, parce qu'il doit y avoir des robots qui croient que j'utilise WP, même si ce n'est pas le cas.

    Je pourrais assurément passer mon week-end à analyser tout ça, mais dans quel but ?
    Patrick Lejeune a proposé de remplacer les 404 par des 403, mais est-ce que cela changerait quelque chose (en plus d'être dangereux) ? Si le robot continue à passer après avoir essuyé tant de 404, je ne crois pas que des 403 puisse le faire fuir.
     
  27. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 247
    J'aime reçus:
    0
    essaye de coller ces deux lignes dans ton .htaccess

    Code:
    RewriteCond %{REQUEST_URI} ^/([a-z])([0-9])([0-9])([0-9])$
    RewriteRule ^([a-z])([0-9])([0-9])([0-9])$		http://www.gratuit.com  [R=301,L]
    Ca va dégager tous les robots qui viennent tester une url qui commence par une lettre suivie de 3 chiffres
     
  28. elji
    elji WRInaute occasionnel
    Inscrit:
    6 Juin 2009
    Messages:
    265
    J'aime reçus:
    0
    Oui, cela peut etre une bonne idée de rediriger le mauvais traffic vers l'extérieur.
    En attendant, je vous livre une perle de mes logs :

    Code:
    User Agent: WebFuck V2.1 T0PHackTeam www.t0p.xyz
     
  29. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    @elji : il y a beaucoup de ligne dans les logs qui sont "normales" et qui touchent la plupart des sites :

    Code:
    /wp-login.php 
    /apple-app-site-association
    /.well-known/assetlinks.json
    /.well-known/dnt-policy.txt 
    Mon soucis c'est bel et bien des lignes qui non rien de normal d'autant plus quand les bots liés a adsense tentent a de nombreuses reprises par jour alors que je n'ai aps adsense non plus. Ou de slignes qui sont plus que suspectes.

    @indigene : pas persuadé que ca soit une bonne solution d'envoyer balader sur un autre site mediapartenrs-google

    La seule chose que je dois faire c'est trouvé l'origine du problème et comment le bloquer, sinon le reste sera juste du bricolage. D'autant plus que je compte bien ajouter un jour des pubs adsense.

    Googlebot n'explore quasiment plus mon site (une dizaine de page par jour maxi) hormis mes images,
     
  30. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 247
    J'aime reçus:
    0
    Crois-tu réellement qu'il s'agit de google mediapartners ?
    C'est sans doute de l'ip spoofing
    Donc envoyer les hackers dans la stratosphère n'est pas idiot. D'autant plus que tu ne testes ni l'ip, ni le user agent, mais simplement la page accédée qui n'a rien de réel
     
  31. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    J'ai installé DNSSEC qui normalement empêche l'IP spoofing (ou cache poisoning)
    Je ne sais pas si il est possible d'avoir dans ses logs des IP de Google mais qui n'en sont pas vraiment. Dans le doute ca me parait trop risqué de l'envoyer balader.

    Et comment expliquer également que googlebot n'explore quasiment plus mes pages d'articles.
     
  32. elji
    elji WRInaute occasionnel
    Inscrit:
    6 Juin 2009
    Messages:
    265
    J'aime reçus:
    0
    Oui, j'ai bien vu cela. La plupart de mes 404 sont pour des pages qui pourraient exister, je les vois alors comme des tentatives de hack. Je suis juste surpris d'en avoir tant, tous les jours. J'imagine que je pourrais créer des répertoires
    /blog
    /admin
    /wp
    /js
    /common
    avec des 410 pour diminuer mes 404... Je ne sais pas si ce serait une bonne idée.

    A part cela, noren, as-tu des ennemis ?
    Ce qui me choque, est que ces robots inventent toujours de nouvelles URLs. Moi, c'est toujours les mêmes qui reviennent. Il faut qu'il y ait un script quelque part, pour que le robot aille toujours inventer de nouvelles URLs. Un javascript ou un URL-rewriting quelconque.
     
  33. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Les ennemis se sont tous les concurrents, donc oui dans mon secteur il y en a un paquet
    Oui les bots continuent toujours d'inventer ces URL. Comme indiqué meme si ca venait de mon côté (javascript mal codé, un script qui pose soucis ...) je ne devrait pas avoir de bots liés a adsense car je n'ai ajouté nulle par le script pour ajouter des pubs adsense.

    J'ai uploadé tous mon site et ma BDD, fait des recherche pour voir si un script ou du code avait été ajouté et il y a quedalle
    Tout porte a croire que ce pb vient de l'extérieur.
     
  34. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 247
    J'aime reçus:
    0
    je ne suis pas expert en réseau mais à mon avis :

    - ce n'est pas toi qui est la cible d'une attaque
    - celui qui utilise ton site en envoyant des requêtes avec de l'ip spoofing vise en fait google mediapartners car la réponse (404 en l'occurence) sera retournée à google mediapartners puisque c'est son ip qui est à l'origine de la requête.
    - indirectement ça peut te causer des ennuis car google mediapartners pense que tu le bombardes de requêtes avec toutes les réponses 404 qu'il reçoit de chez toi

    Donc selon moi il ne faut pas répondre 404 ou 503 mais dégager ces requêtes vers autre chose par une 301. C'est le site destinataire qui sera alors pris en compte par google mediapartners et tu as moins de chances d'être inquiété

    Mais je suis tellement une brelle en réseau qu'un spécialiste pourrait certainement démonter mon raisonnement très facilement. Enfin moi ça me parait logique que ça fonctionne de la sorte.

    C'est clair en tous cas qu'il ne faut pas bloquer les ip ni le user agent car ces ip réelles ou ces user agents n'y sont pour rien. Et ça ne me parait pas normal non plus de répondre 404 à des ip qui n'ont rien demandé. 301 me semble plus approprié même si ce n'est pas la solution. Il faudrait pouvoir remonter à l'ip d'origine mais ça je ne sais pas comment faire à moins d'être OVH et d'avoir accès à plus de données sur les serveurs. Toi tu reçois une requête en provenance d'une ip et tu ne peux que subir. S'il faut un filtre c'est en amont.
     
  35. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    je dois avouer que je ne sais réellement pas quelle solution appliquée : 301, 404 ou si j'envoi baladé lorsqu'ils acédent a des pages inexistantes

    Je viens de voir que j'ai maintenant ce type d'accès dans mes logs :

    Code:
    64.125.188.25 www.monsite.ext - [12/Dec/2016:02:50:33 +0100] "GET /pixel.php?domain=www.monsite.ext&idx=1714&method=pageVisit&message=undefined HTTP/1.1" 404 828 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.1"
    C'est pas net tout ça.
     
  36. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 247
    J'aime reçus:
    0
    Je comprend ton désarroi. C'est un peu comme quand on reçoit des lettres des impôts et des PV de toutes parts. C'est toujours embêtant de s'en débarasser
     
  37. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 921
    J'aime reçus:
    2
    Autant dire que c'est une belle m*rde
     
  38. patrick_lejeune
    patrick_lejeune WRInaute occasionnel
    Inscrit:
    1 Avril 2016
    Messages:
    462
    J'aime reçus:
    0
    Je pourais t'en présenter d'autres: des pages d'administration de CMS Sans utiliser de CMS, j'ai tous les jours ce genres de visiteurs. Même mieux, un page (par example) qui parle de oscommerce.php recoit des tentatives d'hacking sue le CMS OScommerce
     
  39. elji
    elji WRInaute occasionnel
    Inscrit:
    6 Juin 2009
    Messages:
    265
    J'aime reçus:
    0
    Oui, on est bien d'accord. Mais la conséquence est que je surveille très mal mes 404. Je voudrais faire du bon travail, mais quand je regarde, les vrais 404 représentent moins de 0,5% de tous les 404 que je reçois. Au lieu d'avoir un fichier d'erreurs qui ne fait que quelques lignes, j'ai devant les yeux un truc énorme, alors il faut du temps...