Google Dance et bande passante consomme

kenogui · 5 Novembre 2003

Bonjour a tous,

J'ai parcouru le forum sans trouver de vraie reponse a mon genre de question, alors je vous la pose :

Voila, je dispose de Googlestats et de Urchin comme outils de statistiques diverses.

J'ai pu remarquer que le crawl qui passe chez moi a outrance depuis que j'ai installe le googletap (url rewriting pour phpnuke) sur mon site. Je me suis longtemps battu pour permettre le passage du bot mais maintenant qu'il passe il me consomme une bande passante phenomenale ! Cette bande passante consommee ne me semble pas du aux visiteurs de mon site puisque il est assez petits en terme de frequentation (200 visiteurs / jours), je ne dispose d'aucun gros fichier en telechargements (ils sont chez des hebergeurs externes), mais il y a relativement pas mal d'images sur le route de l'internaute a travers mon site. Je pense donc que le GoogleBot consomme ma bande passante a cause des images qu'ils rencontre sur mes pages.

Et si je fais la correlation pic de bande passante (selon urchin) et passage du bot (selon googlestats) ca correspond jour pour jour ...

Je suis entrain d'optimiser la compression de mes images, mais je voudrais solutionner le pb en interdisant au googlebot l'indexation des mes images mais pas de mes pages .... a moins que vous ayez une meilleure solution peut-etre ...

voici un resume urchin :

Code:

  Nombre moyen d'accès pages par jour 	7 647,14  
  Nombre moyen de succès par jour 	23 165,57  
  Nombre moyen d'octets transférés par jour 	341,09 MB 
  Nombre moyen d'octets par visiteur  	968,68 KB

La session de mes soit disant "visiteurs" (qui sont en realite fausse du au comptage du googlebot dans le lot) est passe de 250Ko (avant urlrewriting) a presque 1Mo aujourd'hui !!!!!!

Que faire ?

Voici mon robots.txt :

Code:

User-agent: *
Disallow: admin.php
Disallow: /admin/
Disallow: /images/
Disallow: /includes/
Disallow: /themes/
Disallow: /blocks/
Disallow: /modules/
Disallow: /language/
Disallow: /SBT/
Disallow: /test/
Disallow: /googlestats/
Disallow: /phpMyBackup/
Disallow: /phpMyAdmin/
Disallow: /pphlogger/
Disallow: /webalizer/
Disallow: /xtdump/
Disallow: /dump/
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /images/*.jpg$
Disallow: /images/*.gif$
Disallow: /images/news/*/*.jpg$
Disallow: /images/news/*/*.gif$
Disallow: /images/dossiers/*/*.jpg$
Disallow: /images/dossiers/*/*.gif$
Disallow: /themes/Bloodbowl/images/*.jpg$
Disallow: /themes/Bloodbowl/images/*.gif$
Disallow: /modules/Forums/images/*/*.jpg$
Disallow: /modules/Forums/images/*/*.gif$

Merci a tous !

mahefarivony · 5 Novembre 2003

salut (et bienvenue)

C'est quoi ton site ? N'hésite pas a renseigner ton profil

La mise en place du robots.txt date de quand ?

kenogui · 5 Novembre 2003

arf oui desole :lol:

j'ai mis a jour mon profil, et je donne l'adresse ici : www.bloodbowl-fr.com

le robots.txt est en place depuis des mois, mais j'ai ajoute seulement hier les regles concernant les images. Cependant le googleBot est entrain de passer sur mon site aujourd'hui (et encore une fois a coup de 3000 pages indexees a la mi-journee) et ma bande passante consommee pour aujourd'hui explose encore une fois, il n'a donc pas l'air de prendre en compte mes regles de robots.txt ... d'ailleurs y a t'il un moyen de verifier qu'elles sont bien prises en compte ?

Et est ce que la syntaxe de mon fichier (cf. post au dessus) est correcte ? J'ai le droit d'utiliser le metacaractere "*" pour remplacer n'importe quel nom de repertoire ?

Pour infos au cas ou, voici le passage des bots sur mon site pour le mois d'octobre :

Code:

GoogleBot
Visites : 119232
Pages: 109921
Visites / jour : 3846.2
Liste des robots venus dans cette période :
- GoogleBot [119232]
- Fast [330]
- Alexa [20]
- Scooter (Altavista) [39]
- Almaden [21]
- Turnitin [1]

mahefarivony · 5 Novembre 2003

mais j'ai ajoute seulement hier les regles concernant les images

ah ok, on a le temps alors :wink:
Il faut essayer de reperer a quel moment le googlebot vient visiter ton robots.txt (ce n'est pas tracé dans googlestats je crois) et ca devrait ensuite etre pris en compte assze rapidement..

Je n'y connais pas grand chose en robots.txt, je laisse les spécialistes confirmer la bonne syntaxe de tes regles.

PS 1 : n'hésites pas a varier tes titres de page pour les rendre plus pertinents ;-)

PS 2 : je ne savais pas que google indexait les sid ;-) (bon ok, ce sont des extentions .html)
https://www.google.fr/search?sourceid=na ... fsdfsdfsdf

kenogui · 6 Novembre 2003

Il faut essayer de reperer a quel moment le googlebot vient visiter ton robots.txt

Comment je peux savoir quand le GB prend en compte mon robots.txt ?

Americas · 6 Novembre 2003

119232 visites du bot en combien de jours ? 8O

parce que même sur une semaine ça fait beaucoup :lol:

t'aurai pas un code sur tes pages qui le fait tourner en bourrique sur ton site :wink:

bon... je plaisante :lol: ... quoique :roll: :arrow:

WebRankInfo · 6 Novembre 2003

c'est écrit : c'est pour le mois d'octobre. Mais ça fait pas mal quand même !

kenogui · 6 Novembre 2003

oui oui, c'est les stats pour le mois d'octobre effectivement, et c'est clair que c'est enorme son passage, j'estime que la BP consommee par le bot va chercher dans les 4 a 6 Go par mois.

C'est mon urlrewriting qui marche trop bien en fait ! Puisque il peut parcourir toutes les news, dossiers, et post de mon phpnuke + phpBB ... C'est a double tranchant, et mon site devient tres populaire grace a mon referencement, c'est pour cela que je ne veux pas non plus enlever l'urlrewriting, sinon le bot se contentera de ma page d'acceuil et basta ...

Je pense qu'il faut juste que j'interdise l'indexation des images, qui d'apres Urchin est la premiere source de consommation de BP (gif + JPEG) .... mais je reviens au pb de depart, je ne suis pas sur de la syntaxe de mes regles !

Mitirapa · 16 Novembre 2003

c'est à cause de ton url rewriting
dans ton forum tu as:
-http://www.bloodbowl-fr.com/forum6.html&sid=3d23fa09fcf3975b446af253e2e60e9c
et donc qd un autre robot visite la meme page il a pareil sanf le sid et il indexe encore..
donc google tourne en rond et continue sans cesses

j'ai eu une fois ce prbl et google avait indexé 144.000 pages dans mon site de surf ( ---.surf4all.net)

Suede · 16 Novembre 2003

Bonjour

Oui, c'est le sid qui cause un probleme.
C'est du html donc google ne doit pas faire de test de détection du sid et il crawle toutes tes pages avec un nouvel id de session ensuite.

Supprime le sid pour google de ton forum.Il y a des mods de phpbb qui le font je crois. J'avas même vu une modif qui permettait d'attribuer un sid unique à google.

François

WebRankInfo · 16 Novembre 2003

pour le robots.txt, le * n'est pas permis, à part pour désigner des robots.
si tu veux interdire plusieurs fichiers, tu es obligé d'interdire un répertoire.

kenogui · 17 Novembre 2003

Mitirapa a dit:
c'est à cause de ton url rewriting
dans ton forum tu as:
-http://www.bloodbowl-fr.com/forum6.html&sid=3d23fa09fcf3975b446af253e2e60e9c
et donc qd un autre robot visite la meme page il a pareil sanf le sid et il indexe encore..

arf oui tu as raison .... 8O je viens de voir ca dans robotstats ... et j'ai aussi decouvert que le GB indexe toutes mes pages 2 fois :

une fois avec l'URL : www.bloodbowl-fr.com/for.....
une fois avec l'URL : bloodbowl-fr.com/for..... :cry:

donc 2 fois chaque URL en ajoutant le SID qui change, ceci explique cela !!!

Merci pour le mod phpBB, mais je crois que j'ai plus simple, je vais tout simplement passer a la trappe mon phpnuke + phpBB pour adopter e107 + IBF, ces 2 systemes sont bien plus performant, moins gourmands, et il gere "de base" le passage du GB ... je vais pas devoir me prendre la tete a coup d'URL rewriting et autre google tap...

Concernant le robots.txt, merci bcp de la reponse ! Je vais donc le corriger ... il me semblait avoir lu sur le forum WRI que l'on pouvait utiliser les regles du type "/images/*.gif$" .... m'enfin ...

perti · 23 Novembre 2003

WebRankInfo a dit:
pour le robots.txt, le * n'est pas permis, à part pour désigner des robots.
si tu veux interdire plusieurs fichiers, tu es obligé d'interdire un répertoire.

8O
Voici ce j'ai lu sur les pages de Google :
Exemple pour empecher GBot de crawler les gifs
User-agent: Googlebot
Disallow: /*.gif$

Voir cette page pour plus d'infos : https://www.google.fr/intl/fr/webmasters/3.html#B3

WebRankInfo · 23 Novembre 2003

Je ne sais pas si Google supporte un standard différent du standard officiel, mais je suis certain que les * sont interdites dans les lignes Disallow.

Vu sur le site officiel du standard robots.txt : (http://www.robotstxt.org/wc/exclusion-admin.html)

Note also that regular expression are not supported in either the User-agent or Disallow lines. The '*' in the User-agent field is a special value meaning "any robot". Specifically, you cannot have lines like "Disallow: /tmp/*" or "Disallow: *.gif".

il faudrait faire un petit test ;-)

perti · 23 Novembre 2003

Je trouve le format GG plus souple, car il arrive souvent que les fichiers images ne soitent pas dans un même répertoire ou que pour des raisons techniques qu'elles soient dans un repertoire contenant aussi d'autres types de fichiers (html, pdf).

Pour le test, j'ai ajouté il y a deux mois un fichier robot.txt pour empêcher le crawl des fichiers gif, jpg et flash sur un site très graphique contenant une BD de photos. Le mois passé la consommation de la bande passante liée au crawl a nettement baissé (60%).

Tu as raison WebRankInfo, sur le point de la normalisation. Seul GBot a pris en charge cette forme d'exclusion malgré que j'avais spécifié User-agent: * .