Nouveau site est pas de Googlebot officiel, mais la visite d
Bonsoir,
Le 12 janvier j'ai lancé un nouveau site. Afin de faire un test, j'ai décidé de ne pas le soumettre à Google ni à ces petits copains. J'attends sagement qu'il découvre mon site via quelques liens qui sont disséminés sur la toile.
Je vérifie régulièrement mes logs afin de savoir quand enfin il va ce décider à visiter mon site.
J'utilise la commande suivante pour détecter son passage :
grep Googlebot access_log
Ce que je trouve étrange ce n'est pas sa non venu ce qui me paraitrait normal, mais la venu d'un robot provenant de chez Google, mais qui ne s'annonce pas et qui ne respecte absolument rien.
grep 66.249* access_log
example.com 66.249.67.27 [17/Jan/2009:14:28:46 +0000] "GET / HTTP/1.1" 200 17983
example.com 66.249.67.27 [19/Jan/2009:02:36:24 +0000] "GET /robots.txt HTTP/1.1" 200 783
example.com 66.249.67.27 [18/Jan/2009:23:21:37 +0000] "GET /rep1/ HTTP/1.1" 200 15554
example.com 66.249.67.27 [19/Jan/2009:00:28:17 +0000] "GET /rep2/sous-rep3/ HTTP/1.1" 200 9949
example.com 66.249.67.27 [19/Jan/2009:09:00:57 +0000] "GET / HTTP/1.1" 200 17983
example.com 66.249.67.27 [19/Jan/2009:16:31:11 +0000] "GET /vcssratkq.html HTTP/1.1" 404 5080
Il suit les liens en nofollow, il suit des pages qui lui sont interdites via un fichier robots.txt, etc.
Qui plus est; il va sur des pages (Ex : 404), qui n'ont jamais existé.
Avez-vous déjà vu ça sur vos sites ?
Pour votre information la plage d'IP appartient à Google.
whois 66.249.67.27
OrgName: Google Inc.
OrgID: GOGL
Address: 1600 Amphitheatre Parkway
City: Mountain View
StateProv: CA
PostalCode: 94043
Country: US
NetRange: 66.249.64.0 - 66.249.95.255
CIDR: 66.249.64.0/19
NetName: GOOGLE
NetHandle: NET-66-249-64-0-1
Parent: NET-66-0-0-0-0
NetType: Direct Allocation
NameServer: NS1.GOOGLE.COM
NameServer: NS2.GOOGLE.COM
NameServer: NS3.GOOGLE.COM
NameServer: NS4.GOOGLE.COM
Comment:
RegDate: 2004-03-05
Updated: 2007-04-10
OrgTechHandle: ZG39-ARIN
OrgTechName: Google Inc.
OrgTechPhone: +1-650-318-0200
OrgTechEmail: arin-contact@google.com
Geekement votre,
Un curieux qui recherche d'autres curieux afin de faire un croisement d'information
Bonsoir,
Le 12 janvier j'ai lancé un nouveau site. Afin de faire un test, j'ai décidé de ne pas le soumettre à Google ni à ces petits copains. J'attends sagement qu'il découvre mon site via quelques liens qui sont disséminés sur la toile.
Je vérifie régulièrement mes logs afin de savoir quand enfin il va ce décider à visiter mon site.
J'utilise la commande suivante pour détecter son passage :
grep Googlebot access_log
Ce que je trouve étrange ce n'est pas sa non venu ce qui me paraitrait normal, mais la venu d'un robot provenant de chez Google, mais qui ne s'annonce pas et qui ne respecte absolument rien.
grep 66.249* access_log
example.com 66.249.67.27 [17/Jan/2009:14:28:46 +0000] "GET / HTTP/1.1" 200 17983
example.com 66.249.67.27 [19/Jan/2009:02:36:24 +0000] "GET /robots.txt HTTP/1.1" 200 783
example.com 66.249.67.27 [18/Jan/2009:23:21:37 +0000] "GET /rep1/ HTTP/1.1" 200 15554
example.com 66.249.67.27 [19/Jan/2009:00:28:17 +0000] "GET /rep2/sous-rep3/ HTTP/1.1" 200 9949
example.com 66.249.67.27 [19/Jan/2009:09:00:57 +0000] "GET / HTTP/1.1" 200 17983
example.com 66.249.67.27 [19/Jan/2009:16:31:11 +0000] "GET /vcssratkq.html HTTP/1.1" 404 5080
Il suit les liens en nofollow, il suit des pages qui lui sont interdites via un fichier robots.txt, etc.
Qui plus est; il va sur des pages (Ex : 404), qui n'ont jamais existé.
Avez-vous déjà vu ça sur vos sites ?
Pour votre information la plage d'IP appartient à Google.
whois 66.249.67.27
OrgName: Google Inc.
OrgID: GOGL
Address: 1600 Amphitheatre Parkway
City: Mountain View
StateProv: CA
PostalCode: 94043
Country: US
NetRange: 66.249.64.0 - 66.249.95.255
CIDR: 66.249.64.0/19
NetName: GOOGLE
NetHandle: NET-66-249-64-0-1
Parent: NET-66-0-0-0-0
NetType: Direct Allocation
NameServer: NS1.GOOGLE.COM
NameServer: NS2.GOOGLE.COM
NameServer: NS3.GOOGLE.COM
NameServer: NS4.GOOGLE.COM
Comment:
RegDate: 2004-03-05
Updated: 2007-04-10
OrgTechHandle: ZG39-ARIN
OrgTechName: Google Inc.
OrgTechPhone: +1-650-318-0200
OrgTechEmail: arin-contact@google.com
Geekement votre,
Un curieux qui recherche d'autres curieux afin de faire un croisement d'information