Google Dance et bande passante consomme

Discussion dans 'Crawl et indexation Google, sitemaps' créé par kenogui, 5 Novembre 2003.

  1. kenogui
    kenogui Nouveau WRInaute
    Inscrit:
    19 Mai 2003
    Messages:
    9
    J'aime reçus:
    0
    Bonjour a tous,

    J'ai parcouru le forum sans trouver de vraie reponse a mon genre de question, alors je vous la pose :

    Voila, je dispose de Googlestats et de Urchin comme outils de statistiques diverses.

    J'ai pu remarquer que le crawl qui passe chez moi a outrance depuis que j'ai installe le googletap (url rewriting pour phpnuke) sur mon site. Je me suis longtemps battu pour permettre le passage du bot mais maintenant qu'il passe il me consomme une bande passante phenomenale ! Cette bande passante consommee ne me semble pas du aux visiteurs de mon site puisque il est assez petits en terme de frequentation (200 visiteurs / jours), je ne dispose d'aucun gros fichier en telechargements (ils sont chez des hebergeurs externes), mais il y a relativement pas mal d'images sur le route de l'internaute a travers mon site. Je pense donc que le GoogleBot consomme ma bande passante a cause des images qu'ils rencontre sur mes pages.

    Et si je fais la correlation pic de bande passante (selon urchin) et passage du bot (selon googlestats) ca correspond jour pour jour ...

    Je suis entrain d'optimiser la compression de mes images, mais je voudrais solutionner le pb en interdisant au googlebot l'indexation des mes images mais pas de mes pages .... a moins que vous ayez une meilleure solution peut-etre ...

    voici un resume urchin :
    Code:
      Nombre moyen d'accès pages par jour 	7 647,14  
      Nombre moyen de succès par jour 	23 165,57  
      Nombre moyen d'octets transférés par jour 	341,09 MB 
      Nombre moyen d'octets par visiteur  	968,68 KB 
    
    La session de mes soit disant "visiteurs" (qui sont en realite fausse du au comptage du googlebot dans le lot) est passe de 250Ko (avant urlrewriting) a presque 1Mo aujourd'hui !!!!!!

    Que faire ?

    Voici mon robots.txt :

    Code:
    User-agent: *
    Disallow: admin.php
    Disallow: /admin/
    Disallow: /images/
    Disallow: /includes/
    Disallow: /themes/
    Disallow: /blocks/
    Disallow: /modules/
    Disallow: /language/
    Disallow: /SBT/
    Disallow: /test/
    Disallow: /googlestats/
    Disallow: /phpMyBackup/
    Disallow: /phpMyAdmin/
    Disallow: /pphlogger/
    Disallow: /webalizer/
    Disallow: /xtdump/
    Disallow: /dump/
    Disallow: /*.gif$
    Disallow: /*.jpg$
    Disallow: /images/*.jpg$
    Disallow: /images/*.gif$
    Disallow: /images/news/*/*.jpg$
    Disallow: /images/news/*/*.gif$
    Disallow: /images/dossiers/*/*.jpg$
    Disallow: /images/dossiers/*/*.gif$
    Disallow: /themes/Bloodbowl/images/*.jpg$
    Disallow: /themes/Bloodbowl/images/*.gif$
    Disallow: /modules/Forums/images/*/*.jpg$
    Disallow: /modules/Forums/images/*/*.gif$
    
    Merci a tous !
     
  2. mahefarivony
    mahefarivony WRInaute accro
    Inscrit:
    14 Octobre 2002
    Messages:
    8 175
    J'aime reçus:
    0
    salut (et bienvenue)

    C'est quoi ton site ? N'hésite pas a renseigner ton profil

    La mise en place du robots.txt date de quand ?
     
  3. kenogui
    kenogui Nouveau WRInaute
    Inscrit:
    19 Mai 2003
    Messages:
    9
    J'aime reçus:
    0
    arf oui desole :lol:

    j'ai mis a jour mon profil, et je donne l'adresse ici : www.bloodbowl-fr.com

    le robots.txt est en place depuis des mois, mais j'ai ajoute seulement hier les regles concernant les images. Cependant le googleBot est entrain de passer sur mon site aujourd'hui (et encore une fois a coup de 3000 pages indexees a la mi-journee) et ma bande passante consommee pour aujourd'hui explose encore une fois, il n'a donc pas l'air de prendre en compte mes regles de robots.txt ... d'ailleurs y a t'il un moyen de verifier qu'elles sont bien prises en compte ?

    Et est ce que la syntaxe de mon fichier (cf. post au dessus) est correcte ? J'ai le droit d'utiliser le metacaractere "*" pour remplacer n'importe quel nom de repertoire ?

    Pour infos au cas ou, voici le passage des bots sur mon site pour le mois d'octobre :

    Code:
    GoogleBot
    Visites : 119232
    Pages: 109921
    Visites / jour : 3846.2
    Liste des robots venus dans cette période :
    - GoogleBot [119232]
    - Fast [330]
    - Alexa [20]
    - Scooter (Altavista) [39]
    - Almaden [21]
    - Turnitin [1]
     
  4. mahefarivony
    mahefarivony WRInaute accro
    Inscrit:
    14 Octobre 2002
    Messages:
    8 175
    J'aime reçus:
    0
    ah ok, on a le temps alors :wink:
    Il faut essayer de reperer a quel moment le googlebot vient visiter ton robots.txt (ce n'est pas tracé dans googlestats je crois) et ca devrait ensuite etre pris en compte assze rapidement..

    Je n'y connais pas grand chose en robots.txt, je laisse les spécialistes confirmer la bonne syntaxe de tes regles.

    PS 1 : n'hésites pas a varier tes titres de page pour les rendre plus pertinents ;-)

    PS 2 : je ne savais pas que google indexait les sid ;-) (bon ok, ce sont des extentions .html)
    https://www.google.fr/search?sourceid=na ... fsdfsdfsdf
     
  5. kenogui
    kenogui Nouveau WRInaute
    Inscrit:
    19 Mai 2003
    Messages:
    9
    J'aime reçus:
    0
    Comment je peux savoir quand le GB prend en compte mon robots.txt ?
     
  6. Americas
    Americas WRInaute accro
    Inscrit:
    24 Septembre 2003
    Messages:
    2 587
    J'aime reçus:
    0
    119232 visites du bot en combien de jours ? 8O

    parce que même sur une semaine ça fait beaucoup :lol:

    t'aurai pas un code sur tes pages qui le fait tourner en bourrique sur ton site :wink:

    bon... je plaisante :lol: ... quoique :roll: :arrow:
     
  7. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 079
    J'aime reçus:
    333
    c'est écrit : c'est pour le mois d'octobre. Mais ça fait pas mal quand même !
     
  8. kenogui
    kenogui Nouveau WRInaute
    Inscrit:
    19 Mai 2003
    Messages:
    9
    J'aime reçus:
    0
    oui oui, c'est les stats pour le mois d'octobre effectivement, et c'est clair que c'est enorme son passage, j'estime que la BP consommee par le bot va chercher dans les 4 a 6 Go par mois.

    C'est mon urlrewriting qui marche trop bien en fait ! Puisque il peut parcourir toutes les news, dossiers, et post de mon phpnuke + phpBB ... C'est a double tranchant, et mon site devient tres populaire grace a mon referencement, c'est pour cela que je ne veux pas non plus enlever l'urlrewriting, sinon le bot se contentera de ma page d'acceuil et basta ...

    Je pense qu'il faut juste que j'interdise l'indexation des images, qui d'apres Urchin est la premiere source de consommation de BP (gif + JPEG) .... mais je reviens au pb de depart, je ne suis pas sur de la syntaxe de mes regles !
     
  9. Mitirapa
    Mitirapa WRInaute passionné
    Inscrit:
    10 Juillet 2002
    Messages:
    1 175
    J'aime reçus:
    0
    c'est à cause de ton url rewriting
    dans ton forum tu as:
    -http://www.bloodbowl-fr.com/forum6.html&sid=3d23fa09fcf3975b446af253e2e60e9c
    et donc qd un autre robot visite la meme page il a pareil sanf le sid et il indexe encore..
    donc google tourne en rond et continue sans cesses

    j'ai eu une fois ce prbl et google avait indexé 144.000 pages dans mon site de surf ( ---.surf4all.net)
     
  10. Suede
    Suede WRInaute passionné
    Inscrit:
    4 Octobre 2002
    Messages:
    2 474
    J'aime reçus:
    0
    Bonjour

    Oui, c'est le sid qui cause un probleme.
    C'est du html donc google ne doit pas faire de test de détection du sid et il crawle toutes tes pages avec un nouvel id de session ensuite.

    Supprime le sid pour google de ton forum.Il y a des mods de phpbb qui le font je crois. J'avas même vu une modif qui permettait d'attribuer un sid unique à google.

    François
     
  11. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 079
    J'aime reçus:
    333
    pour le robots.txt, le * n'est pas permis, à part pour désigner des robots.
    si tu veux interdire plusieurs fichiers, tu es obligé d'interdire un répertoire.
     
  12. kenogui
    kenogui Nouveau WRInaute
    Inscrit:
    19 Mai 2003
    Messages:
    9
    J'aime reçus:
    0
    arf oui tu as raison .... 8O je viens de voir ca dans robotstats ... et j'ai aussi decouvert que le GB indexe toutes mes pages 2 fois :

    une fois avec l'URL : www.bloodbowl-fr.com/for.....
    une fois avec l'URL : bloodbowl-fr.com/for..... :cry:

    donc 2 fois chaque URL en ajoutant le SID qui change, ceci explique cela !!!

    Merci pour le mod phpBB, mais je crois que j'ai plus simple, je vais tout simplement passer a la trappe mon phpnuke + phpBB pour adopter e107 + IBF, ces 2 systemes sont bien plus performant, moins gourmands, et il gere "de base" le passage du GB ... je vais pas devoir me prendre la tete a coup d'URL rewriting et autre google tap...

    Concernant le robots.txt, merci bcp de la reponse ! Je vais donc le corriger ... il me semblait avoir lu sur le forum WRI que l'on pouvait utiliser les regles du type "/images/*.gif$" .... m'enfin ...
     
  13. perti
    perti WRInaute occasionnel
    Inscrit:
    22 Octobre 2003
    Messages:
    271
    J'aime reçus:
    0
    8O
    Voici ce j'ai lu sur les pages de Google :
    Exemple pour empecher GBot de crawler les gifs
    User-agent: Googlebot
    Disallow: /*.gif$

    Voir cette page pour plus d'infos : https://www.google.fr/intl/fr/webmasters/3.html#B3
     
  14. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 079
    J'aime reçus:
    333
    Je ne sais pas si Google supporte un standard différent du standard officiel, mais je suis certain que les * sont interdites dans les lignes Disallow.

    Vu sur le site officiel du standard robots.txt : (http://www.robotstxt.org/wc/exclusion-admin.html)
    il faudrait faire un petit test ;-)
     
  15. perti
    perti WRInaute occasionnel
    Inscrit:
    22 Octobre 2003
    Messages:
    271
    J'aime reçus:
    0
    Je trouve le format GG plus souple, car il arrive souvent que les fichiers images ne soitent pas dans un même répertoire ou que pour des raisons techniques qu'elles soient dans un repertoire contenant aussi d'autres types de fichiers (html, pdf).

    Pour le test, j'ai ajouté il y a deux mois un fichier robot.txt pour empêcher le crawl des fichiers gif, jpg et flash sur un site très graphique contenant une BD de photos. Le mois passé la consommation de la bande passante liée au crawl a nettement baissé (60%).

    Tu as raison WebRankInfo, sur le point de la normalisation. Seul GBot a pris en charge cette forme d'exclusion malgré que j'avais spécifié User-agent: * .
     
Chargement...
Similar Threads - Google Dance bande Forum Date
Réduire sa dépendance à Google Le café de WebRankInfo 22 Mai 2019
Google Tendances des Recherches : Facile Google : l'entreprise, les sites web, les services 5 Mai 2014
Google dance Référencement Google 26 Janvier 2013
Fusion de google tendances et google trends Google : l'entreprise, les sites web, les services 27 Septembre 2012
Google Dance ou bien pénalité? Problèmes de référencement spécifiques à vos sites 20 Août 2012
Google Tendances ?! Débuter en référencement 28 Mars 2012
Google tendance : index de volume Débuter en référencement 8 Mars 2012
Google : tendances VS générateur de mots clés Débuter en référencement 9 Janvier 2012
Google Dance Novembre 2011 [Mise à jour du PageRank] Netlinking, backlinks, liens et redirections 7 Novembre 2011
Google panda google dance Crawl et indexation Google, sitemaps 7 Septembre 2011
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice