Erreurs 500 avec OVH et deux IP de Googlebot

WRInaute passionné
Bonjour à tous,

Je surveille depuis quelques temps les erreurs dans mes logs (mutualisé OVH) et je constate un phénomène étrange : Deux IP de Googlebot reviennent tout le temps et génèrent pratiquement toutes les erreurs de mes logs. C'est en plus toujours le même type : "Premature end of script headers".

Voici le début des logs de ce matin :
Code:
[Thu Mar 21 00:00:10 2013] [error] [client 66.249.75.101] [host www.monsite.fr] Premature end of script headers: script1.php
[Thu Mar 21 00:06:52 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script2.php
[Thu Mar 21 00:06:21 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script3.php
[Thu Mar 21 00:04:38 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script1.php
[Thu Mar 21 00:03:33 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script1.php
[Thu Mar 21 00:23:00 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script2.php
[Thu Mar 21 00:01:12 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script1.php
[Thu Mar 21 00:02:22 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script1.php
[Thu Mar 21 00:05:41 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script2.php
[Thu Mar 21 00:14:17 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script1.php
[Thu Mar 21 00:01:56 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script1.php
[Thu Mar 21 00:17:34 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script2.php
[Thu Mar 21 00:34:58 2013] [error] [client 66.249.78.50] [host www.monsite.fr] Premature end of script headers: script2.php
[Thu Mar 21 00:23:54 2013] [error] [client 66.249.75.101] [host www.monsite.fr] Premature end of script headers: script3.php
[Thu Mar 21 00:29:29 2013] [error] [client 66.249.75.101] [host www.monsite.fr] Premature end of script headers: script2.php
...

Je ne comprends pas ce phénomène. Je ne rencontre personnellement pratiquement jamais d'erreur en navigant sur le site. Ca ne semble pas lié à un script en particulier (peut-être un include) ou à des requêtes trop proches.

Quelqu'un aurait-il une piste pour trouver l'origine de ces erreurs ?

D'autres chez OVH auraient le même soucis ?

Merci d'avance à ceux qui pourront m'aiguiller vers une solution ou au moins une explication.
 
WRInaute passionné
J'ai pensé à ça mais ça ne ressemble pas à ce que j'ai déjà constaté par le passé avec des alertes dans GWT. Là rien de particulier.

Et pourquoi ce ne sont que deux IP Googlebot qui ont ce problème ? J'ai regardé les logs web et je retrouve bien des codes retour 200 pour ces deux IP. Ce n'est donc pas un blocage permanent.
 
WRInaute accro
as-tu regardé le UA ? car les sites créés avec google apps utilisent les ip de gg. Et, là dessus, on trouve pas mal de sites de scrapping :twisted:
 
WRInaute passionné
C'est bien "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

Les IP "AppEngine-Google" sont distinctes de celles de Googlebot d'après ce que je constate.
 
WRInaute passionné
J'ai contacté le support pour trouver une solution. J'ai eu une réponse (certainement standard) qui n'apporte rien. J'ai bien peur qu'il n'ait pas lu ce que j'ai écrit car la réponse est vraiment à côté :
Support OVH a dit:
Dans votre fichier robots, vous n'avez pas bloqué l'accès à certaines parties de votre site pouvant expliquer cela ?
Au final il a reconnu être incompétent et à ouvert un ticket d'incident. A suivre...
 
WRInaute passionné
La dernière réponse bidon du support OVH :
support OVH a dit:
Ceci est dû aux règles de redirection suivantes appliquées au niveau de votre fichier ".htaccess" :

#réécriture robots.txt=
RewriteRule ^.*/robots.txt /robots.txt [R=301,L,NC]
RewriteRule ^robots\.txt$ /robots.php [L,NC]

#réécriture xml
RewriteRule ^sitemap\.xml$ /sitemap.php [L,NC]

Les moteurs de Googlebot, n'arrivent à consulter le fichier de référencement "robots.txt" et celui "sitemap.xml" contenant l'arborescence de votre site.

D'où ils mettent du temps au moment de l'accès au site mais avoir de réponse.

Merci donc de vérifier vos règles.
Ces règles marchent bien évidement très bien et permettent juste de générer les fichiers concernés en php. Aucun problème signalé dans GWT pour ces fichiers.
 
WRInaute accro
forty a dit:
Ces règles marchent bien évidement très bien et permettent juste de générer les fichiers concernés en php.
C'est vrai qu'elles fonctionnent mais pt1 que ça rame ... si jamais tes 4 sitemap sont crawlés a des intervalles ultra court il est possible que ça mette le serveur en erreur. J'en ai demandé avant de commencer a répondre et là il est toujours pas fini de charger dans mon navigateur image si j'en demande plus ...
C'est peut être une piste a suivre même si ça semble farfelu.
 
WRInaute passionné
J'ai fait un calcul : sur les 1000 dernières erreurs 500 que j'ai loggé j'en ai 981 avec des IP Googlebot commençant par 66.249.*.

Ca fait 98,1% des erreurs 500 avec 5 IP Googlebot dont une (66.249.78.50) qui représente 87,8% des erreurs et une deuxième (66.249.75.101) 10%. Si le problème concernait mon code ou ma configuration, la répartition de ces erreurs devrait être plus équitable entre les différents robots par rapport au nombre de requêtes qu'ils font, ce qui n'est visiblement pas le cas.

Edit : j'ai oublié de préciser que les erreurs se produisent essentiellement pour des pages du site. Il n'y a pas de problème remonté dans GWT pour le robots.txt ou les sitemap.
 
WRInaute accro
T'ai passé un screen étrange en mp.

Sinon aurais tu un anti aspirateur chatouilleux ? GG me crawle parfois les pages en deux fois depuis la même IP comme si il voulais voir que je donne bien la même page deux fois de suite. Un anti aspi pourrait réagir et l'envoyer chier ... ou provoquer une erreur. J'ai jamais constaté ça autrepart que chez GG.
 
WRInaute passionné
J'ai un bout de code qui bloque les IP trop gourmandes mais ca ne vient pas de là car Googlebot répartie ses requêtes sur plusieurs IP et pas trop rapproché. En plus pas de trace dans mes logs. Si ca venait de là il y aurait des erreurs 403 pas 500.

C'est bien possible que ces IP génèrent globalement trop de requêtes sur les serveurs mutu et que c'est là que ça bloque.
 
WRInaute accro
forty a dit:
C'est bien possible que ces IP génèrent globalement trop de requêtes sur les serveurs mutu et que c'est là que ça bloque.
ça serait pas étonnant ça ... comme le dit StefouFR
 
Discussions similaires
Haut