amazonaws.com : c’est quoi exactement ?

hibou57 · 4 Février 2012

Hello,

amazonaws.com, c’est censé être un service de cloud‑computing. Mais alors pourquoi crawl t‑il ?

Il utilise beaucoup d’IPs de plages apparemment assez différentes, dont certaines IPs que j’ai relevé pour avoir des comportements pas clair, tandis que certaines IPs ne posent pas de problème; mais comme plusieurs se sont montré pas claires, je bloque toutes les IPs attachées à ce domaine.

J’aimerais quand‑même comprendre ce que c’est que cette chose.

Quelqu’un(e) en sait plus ? C’est un moteur de recherche expérimentale ou je ne sais quoi ? Ce sont des serveurs depuis lesquels n’importe qui peut faire n’importe quoi ?

Remarque : il n’apparait jamais directement comme amazonaws.com, mais plutôt avec un préfixe, les domaines apparaissent donc plutôt comme des *.*.amazonaws.com, comme par exemple ec2-50-19-70-41.compute-1.amazonaws.com.

Acerouk · 4 Février 2012

Le principe du cloud computing, c'est bien que le client y installe ce qu'il veut, donc pourquoi pas un robot ?

hibou57 · 4 Février 2012

Mais ce n’est pas pour les données le cloud ? Qu’on puisse y stocker un programme, je me doutais bien, mais l’y faire tourner, je ne savais pas.

Du point de vue utilisateur, ce sont des serveurs à part‑entière alors ?

Leonick · 4 Février 2012

oui, mais comme google utilise certaines de ses plages d'ip, on ne peut pas les bannir

hibou57 · 5 Février 2012

Pourquoi ils font ça ? Pour la détection du cloaking ? Mais pourquoi ne pas utiliser d’autres serveurs plutôt que ceux là, dont plusieurs IPs sont connu pour spammer ?

Comment as‑tu sut que Google utilise leurs serveurs ?

Si c’est pour la détection du cloaking, j’imagine qu’on ne peut pas connaitre ces IPs. Ben tant‑pis, parfois Google recevra des erreurs 403. Si il n’y a aucun moyen de faire la distinction, que faire ?

hibou57 · 5 Février 2012

Trouvé ça, mais qui n’aide pas beaucoup : amazonaws.com plays host to wide variety of bad bots (webmasterworld.com)

Ça parle vers la fin, d’IPs qui quand on les ouvre, renvoient une page identique à la page d’accueil de Google. J’ai testé l’IP indiquée (--http://72.44.61.194) mais je n’obtiens rien. Bizarre cette histoire.

-- edit --

Peut‑être en rapport, en tous les cas, lié depuis le lien précédent : Hunting Google Safebrowsing Diagnostic Spidering (webmasterworld.com).

Ça parle de Google qui crawl sans apparaitre comme Google. Mais quelqu’un exprime des doutes et dit que ça pourrait être n’importe qui ou n’importe quoi d’autre.

Leonick · 5 Février 2012

les petits malins qui tentent de se faire passer pour googlebot à partir d'ip résidentielles ou de serveur mutualisés, ça a toujours exister. Après, c'est à chacun de ne pas se faire avoir : c'est sur que si sa seule protection est de se fier au UA :roll:
moi je parlais en fait de plages d'ip, clairement définies dans les whois comme appartenant à google ou à amazon, mais tous les 2 hébergent des applications externes; googleapps sert ainsi de nid à de nombreux bots sauvages et là, impossible de bloquer les ip, car google preview ou translate utilise aussi ces ip. Il semblerait que google force le user agent, qui contiendra toujours un google apps dedans, il suffit, dans ce cas de bloquer le UA

hibou57 · 5 Février 2012

C’est sûr que se fier au seul User‑Agent n’est pas malin. J’utilise d’autres critères, multiples, mais le User‑Agent en fait partie, d’une certaine manière.

Merci pour la note au sujet de l’UA GoogleApps.

De toutes manières, j’ai prévu de mettre la page d’erreur 403 sous surveillance aussi, pour voir si je ne fais pas d’erreur.

amazonaws.com est parfois associé à des IPs en Russie. Peut‑être que la provenance reste plus significative que le domaine. Ça, je le verrai dans plusieurs jours, en décortiquant les logs de la page 403.

Merci encore pour tes commentaires bien précieux