amazonaws.com : c’est quoi exactement ?

Discussion dans 'Administration d'un site Web' créé par hibou57, 4 Février 2012.

  1. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Hello,

    amazonaws.com, c’est censé être un service de cloud‑computing. Mais alors pourquoi crawl t‑il ?

    Il utilise beaucoup d’IPs de plages apparemment assez différentes, dont certaines IPs que j’ai relevé pour avoir des comportements pas clair, tandis que certaines IPs ne posent pas de problème; mais comme plusieurs se sont montré pas claires, je bloque toutes les IPs attachées à ce domaine.

    J’aimerais quand‑même comprendre ce que c’est que cette chose.

    Quelqu’un(e) en sait plus ? C’est un moteur de recherche expérimentale ou je ne sais quoi ? Ce sont des serveurs depuis lesquels n’importe qui peut faire n’importe quoi ?

    Remarque : il n’apparait jamais directement comme amazonaws.com, mais plutôt avec un préfixe, les domaines apparaissent donc plutôt comme des *.*.amazonaws.com, comme par exemple ec2-50-19-70-41.compute-1.amazonaws.com.
     
  2. Acerouk
    Acerouk WRInaute occasionnel
    Inscrit:
    16 Février 2008
    Messages:
    446
    J'aime reçus:
    0
    Le principe du cloud computing, c'est bien que le client y installe ce qu'il veut, donc pourquoi pas un robot ?
     
  3. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Mais ce n’est pas pour les données le cloud ? Qu’on puisse y stocker un programme, je me doutais bien, mais l’y faire tourner, je ne savais pas.

    Du point de vue utilisateur, ce sont des serveurs à part‑entière alors ?
     
  4. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 274
    J'aime reçus:
    0
    oui, mais comme google utilise certaines de ses plages d'ip, on ne peut pas les bannir
     
  5. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Pourquoi ils font ça ? Pour la détection du cloaking ? Mais pourquoi ne pas utiliser d’autres serveurs plutôt que ceux là, dont plusieurs IPs sont connu pour spammer ?

    Comment as‑tu sut que Google utilise leurs serveurs ?

    Si c’est pour la détection du cloaking, j’imagine qu’on ne peut pas connaitre ces IPs. Ben tant‑pis, parfois Google recevra des erreurs 403. Si il n’y a aucun moyen de faire la distinction, que faire ?
     
  6. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Trouvé ça, mais qui n’aide pas beaucoup : amazonaws.com plays host to wide variety of bad bots (webmasterworld.com)

    Ça parle vers la fin, d’IPs qui quand on les ouvre, renvoient une page identique à la page d’accueil de Google. J’ai testé l’IP indiquée (--http://72.44.61.194) mais je n’obtiens rien. Bizarre cette histoire.

    -- edit --

    Peut‑être en rapport, en tous les cas, lié depuis le lien précédent : Hunting Google Safebrowsing Diagnostic Spidering (webmasterworld.com).

    Ça parle de Google qui crawl sans apparaitre comme Google. Mais quelqu’un exprime des doutes et dit que ça pourrait être n’importe qui ou n’importe quoi d’autre.
     
  7. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 274
    J'aime reçus:
    0
    les petits malins qui tentent de se faire passer pour googlebot à partir d'ip résidentielles ou de serveur mutualisés, ça a toujours exister. Après, c'est à chacun de ne pas se faire avoir : c'est sur que si sa seule protection est de se fier au UA :roll:
    moi je parlais en fait de plages d'ip, clairement définies dans les whois comme appartenant à google ou à amazon, mais tous les 2 hébergent des applications externes; googleapps sert ainsi de nid à de nombreux bots sauvages et là, impossible de bloquer les ip, car google preview ou translate utilise aussi ces ip. Il semblerait que google force le user agent, qui contiendra toujours un google apps dedans, il suffit, dans ce cas de bloquer le UA
     
  8. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    C’est sûr que se fier au seul User‑Agent n’est pas malin. J’utilise d’autres critères, multiples, mais le User‑Agent en fait partie, d’une certaine manière.

    Merci pour la note au sujet de l’UA GoogleApps.

    De toutes manières, j’ai prévu de mettre la page d’erreur 403 sous surveillance aussi, pour voir si je ne fais pas d’erreur.

    amazonaws.com est parfois associé à des IPs en Russie. Peut‑être que la provenance reste plus significative que le domaine. Ça, je le verrai dans plusieurs jours, en décortiquant les logs de la page 403.

    Merci encore pour tes commentaires bien précieux :D
     
Chargement...
Similar Threads - amazonaws c’est exactement  Forum Date
yougov.com : c’est quoi ce truc ? Le café de WebRankInfo 6 Janvier 2012
C’est quoi les CPU typiques sur les hébergements mutualisés ? Développement d'un site Web ou d'une appli mobile 18 Juillet 2010
C’est repartie pour google Référencement Google 12 Mai 2006