Saturation Google dû à l'URL Rewriting

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Yvan, 13 Mars 2003.

  1. Yvan
    Yvan WRInaute discret
    Inscrit:
    6 Novembre 2002
    Messages:
    215
    J'aime reçus:
    0
    Bonjour, je poste ça ici, mais ça devrait aussi se trouver dans la section URL Rewriting.

    Voilà, mon site utilise l'URL Rewriting, et ça marche enfin parfaitement, enfin je veux dire par là que Google m'a enfin référencé, tout au moins il a bien commencé (merci Googlestats pour les infos !), et ce malgré mes Frames (au passage pour ceux qui en ont, gardez-les !).

    Cependant, j'ai une page de recherche : http://www.lacoccinelle.net/search.html, et dessus j'y affiche les 20 dernières recherches. Google en a déjà pris un paquet de 20. Mais à chaque fois qu'il va passer, il va tomber sur une nouvelle version de la page de recherche, donc sur 20 nouvelles URL... Et sachant qu'elles sont toutes réécrites... Ca ne va pas être très propre tout ça, puisqu'il ne va pas arrêter de trouver des pages, et qu'il va sans arrêt les ajouter à son index. Pour moi, pas de problème, mais pour Google, cela ne risque-t-il pas d'être du temps perdu/place perdue ? Parce qu'il n'est pas près de voir toutes les URL possibles, même si derrière leur contenu change peu souvent. Et j'ai aussi un peu peur de voir mes stats saturées par GoogleBot...

    Des idées/infos là-dessus, ou le mieux est-il encore de poser la question au concerné (donc à la Google équipe !) ?

    Yvan.
     
  2. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 079
    J'aime reçus:
    333
    tu peux interdire à Google d'indexer cette page précisément, avec la balise meta robots
     
  3. Yvan
    Yvan WRInaute discret
    Inscrit:
    6 Novembre 2002
    Messages:
    215
    J'aime reçus:
    0
    Oui, c'est vrai, j'avais pas pensé à ça... Mais la question est aussi : est-il utile que Google référence ces pages, qui ne sont qu'un mix de mes autres pages ? Je me dis que oui puisque cela me permettra d'avoir plus de pages, donc plus de pages avec mots-clé, mais comment Google pourra-t-il faire la différence avec des pages satellites ?

    Sinon je sens que je vais opté pour le "noindex", parce que maintenant qu'il commence à suivre mes urls, j'ai aps envie de me faire blacklister !!

    Merci,
    Yvan.
     
  4. champignac
    champignac Nouveau WRInaute
    Inscrit:
    13 Décembre 2002
    Messages:
    46
    J'aime reçus:
    0
    Pour infos, avant d'arriver a satturer google tu peux y aller !

    Le mois dernier a cause de ( ou grace a ) l'url rewritting, google m'a référencé 55000 pages sans problèmes. Aucune utilitée ( ou trés peu en terme de trafic ), si ce n'est des erreurs du a certain bug de prog.

    Pour information seulement.
     
  5. Dams
    Dams WRInaute discret
    Inscrit:
    10 Mars 2003
    Messages:
    124
    J'aime reçus:
    0
    Ah mon avis avant que Google sature à cause du trop grand nombre de page.. Y'a de la marge!

    Le risque n'est t'il pas de ce faire Blacklister à cause d'un contenue trop dupliqué??
     
  6. Mitirapa
    Mitirapa WRInaute passionné
    Inscrit:
    10 Juillet 2002
    Messages:
    1 175
    J'aime reçus:
    0
    perso au début je voulais qu'il en prenne un max.. il a meme été à 142 000 pages indexés (j'avais fait une erreur de SID dans mon forum)
    maintenant que j'ai vu le taux de visiteurs rammené par rapport ma bande passante bouffée, j'ai préféré à fermer mes forums pour le non-membre (et donc les moteurs vu qu'ils ne sont pas membre), et je vais aussi virer mon url rewriting d'une partie de ma galerie photos...
    Ma conclusion de mon expérience a donc été de savoir que ca ne sert à rien de rendre tout indexable...
     
  7. Dams
    Dams WRInaute discret
    Inscrit:
    10 Mars 2003
    Messages:
    124
    J'aime reçus:
    0
    Que veux tu dire ? Que ta bande passante a été bouffée à cause d'un trop grand nombre de visiteur ? Dans se cas c'est bien, non ?
     
  8. Mitirapa
    Mitirapa WRInaute passionné
    Inscrit:
    10 Juillet 2002
    Messages:
    1 175
    J'aime reçus:
    0
    bouffé par les robots des moteurs...
    googlebot+pompos+fast, etc.. ca fait bcp de traffic par ces bots pour pas bcp de retour de vrais visiteurs
     
  9. Katia
    Katia WRInaute occasionnel
    Inscrit:
    4 Septembre 2002
    Messages:
    345
    J'aime reçus:
    0
    Bande passante...
    C'est sûr que pour les sites qui se laissent accaparer progressivement la totalité de leur bande passante par les spiders, il faudrait inventer une nouvelle balise du type:
    <META NAME="Humans" CONTENT="indexation en cours, Désolé nofollow">
     
  10. Yvan
    Yvan WRInaute discret
    Inscrit:
    6 Novembre 2002
    Messages:
    215
    J'aime reçus:
    0
    Bonjour, je rentre juste de WE, et la surprise, c'est aussi les 4000 mails de Google Stats !! Et oui, le problème n'est pas seulement que Google m'indexe les pages, mais comme le dit Mitirapa, c'est que ça bouffe de la bande-passante au max. De plus, si je laisse faire Google, il n'en finira pas de trouver des pages (car les recherches réalisées sur mon site font parties des URL !). Donc forcément, il me faut le limiter. Je sais bien que je ne risque pas de les saturer, mais bon, j'ai déjà 4000 pages indexes, alors que seulement 600 suffiraient. J'ai donc mis un noindex/nofollow sur ma page de recherche. En sachant cependant que mes pages restent accessibles par d'autres liens.

    Une question me vient : si Google référence une page, mais ne suit pas les liens (à cause du "nofollow"), se servira-t-il tout de même de cette page pour calculer son PR ? En clair s'il voit un lien d'une page A (nofollow) vers une page B déjà indexée, l'inclut-il dans son algorithme pour calculer le PR de B ?

    C'est tout sinon, merci de vos réponses :D
     
  11. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 079
    J'aime reçus:
    333
    pour le pb de GoogleStats (même s'il y aura sûrement une nouvelle version d'ici la prochaine Google Dance) :
    1/ dans googlestats.inc.php : cherche les lignes ressemblant à ça :
    Code:
              $sql3 .= " WHERE ip LIKE '".$FULL_CRAWL_IP."%'";
              $sql3 .= " AND TO_DAYS(NOW()) - TO_DAYS(date) < $NB_J_DET_FULL_CRAWL";
    
    et corrige-les pour qu'elles soient identiques à ceci.
    2/ pour éviter de recevoir un message sans texte ( :oops: ), toujours dans le meme fichier, ajoute en haut :
    Code:
    include $DOCUMENT_ROOT."/googlestats/lang.$LANGUE.php";
    ceci dit apparement GoogleBot aime bien ton site !
     
  12. Yvan
    Yvan WRInaute discret
    Inscrit:
    6 Novembre 2002
    Messages:
    215
    J'aime reçus:
    0
    Salut Olivier, je n'ai pas vu de différence entre le code sql3 du script que j'ai et de celui que tu as posté. Ca doit limiter le nombre de mail que je reçois, c'est ça ?D'après ce que j'ai compris, ça ne limite pas, et ça m'envoie un mail par page sur laquelle le Full Crawl est passé. C'est pas bien grave, j'ai encore plus limité mes pages grâce au noindex/nofollow, je ne devrais plus recevoir de mails. Et de toute façon, je les laisse, ça me permet de voir l'activité de mon cher GoogleBot.

    Quant au $LANGUE, je le savais, puisque c'est moi qui t'ai fait passé le mot :wink:

    Mais je ne regrette en rien cette toute dernière version de GS, au contraire, ça m'a permi de voir que Google et les autres moteurs risquaient de tourner en rond sur mon site...

    A plus, et merci encore de ta spontanéité !
     
  13. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 079
    J'aime reçus:
    333
    il y avait une parenthèse en trop après ."%'";
     
  14. Katia
    Katia WRInaute occasionnel
    Inscrit:
    4 Septembre 2002
    Messages:
    345
    J'aime reçus:
    0
    Juste pour dire que la réponse à cette question m'intéresse également...même si il y a peu de change que quelqu'un soit informé. C'est très proche de https://www.webrankinfo.com/forum/t/index-nofollow.2079/ resté sans réponse.

    Katia.
     
  15. Yvan
    Yvan WRInaute discret
    Inscrit:
    6 Novembre 2002
    Messages:
    215
    J'aime reçus:
    0
    Katia, je pense que le plus simple reste encore de demander à l'équipe de Google. Si j'ai le temps, je le ferais ce soir.

    Olivier, j'ai trouvé la parenthèse fautive en effet, par contre je ne vois pas ce que cela pourrait changer au niveau des mails (bien que la requête MySQL marche désormais). Si j'ai bien compris, on reçoit un mail par page crawlée par le Full Crawl, c'est bien ça ?

    A plus,
     
  16. hetzeld
    hetzeld WRInaute passionné
    Inscrit:
    2 Décembre 2002
    Messages:
    1 603
    J'aime reçus:
    0
    Katia et Yvan,

    Pour répondre à cette question, la réponse logique me semble être 'non'.

    Lorsqu'on donne l'instruction 'nofollow', on demande expressément de ne pas prendre en considération les liens de la page A, quelles que soient les pages vers lesquelles ces liens sont émis.
    Ces liens seront donc ignorés et de ce fait ne pourront pas intervenir dans le calcul du PR d'autres pages.

    Dan
     
  17. Kmacleod
    Kmacleod WRInaute passionné
    Inscrit:
    28 Novembre 2002
    Messages:
    2 468
    J'aime reçus:
    0
    Je n'ai pas regardé le détail du code, mais celà devrait envoyer un mail unique au premier passage du bot pour dire le Crawl commence pour le site.
     
  18. Yvan
    Yvan WRInaute discret
    Inscrit:
    6 Novembre 2002
    Messages:
    215
    J'aime reçus:
    0
    Hetzeld, je me suis mal fait comprendre semble-t-il :
    soit la page A et la page B qui font chacune un lien vers C. Sur A je mets un "nofollow", parce que je ne veux pas que Google suive certains de ses liens. Est-ce que le PR de la page C, qui est dans l'index puisque pointée par B (en "index,follow"), est calculé aussi à partir du PR de A ou pas ? Google sait qu'il y a un lien de A vers C, puisqu'il référence la page, mais en tient-il compte dans son algo ?

    Kmacleod, d'après ce que j'en ai compris, le script t'envoie un mail par page crawlée dès qu'il détecte le full crawl, car la seule variable utilisée est le $NB_J_DET_FULL_CRAWL (de mémoire), qui détermine le nombre de jours minimum entre 2 Full Crawl. Donc a priori ça devrait t'envoyer un mail par page. En tout cas c'est ce que ça a fait chez moi !!! Et c'est pas plus mal, parce que au moins tu sais si Google est passé, et surtout sur quelle page (à ajouter d'ailleurs dans le message envoyé, qu'en penses-tu Olivier ?).

    A plus,
     
  19. Kmacleod
    Kmacleod WRInaute passionné
    Inscrit:
    28 Novembre 2002
    Messages:
    2 468
    J'aime reçus:
    0
    Certes si c'est ce que celà fait.
    Ce que celà devrait faire (amha), c'est un mail unique pour alerte, ensuite le détail des pages indexées est dans les stats de googlestats.
    C'est peut-être ce qui était prevu.
    Avoir un mail à chaque page, ce n'est pas gérable, ou alors je mets une bal exclusive sur un compte internet :cry:
     
  20. hetzeld
    hetzeld WRInaute passionné
    Inscrit:
    2 Décembre 2002
    Messages:
    1 603
    J'aime reçus:
    0
    Yvan,

    Google sait qu'il y a un lien de A vers C, mais comme tu lui demandes spécifiquement de ne pas le suivre, il ne le considère pas comme tel. Donc je maintiens ma réponse, la logique voudrait que le PR ne soit pas transmis ...

    (c'est mon avis et je le partage :lol: )

    Dan

    PS: tu t'étais parfaitement fait comprendre, sauf que je ne perçois toujours pas l'utilité du "nofollow" dans le cas que tu décris, surtout s'il y a un "follow" au départ de la page B :roll:
    Quel en est l'intérêt ?
     
  21. Yvan
    Yvan WRInaute discret
    Inscrit:
    6 Novembre 2002
    Messages:
    215
    J'aime reçus:
    0
    Ok Hetzeld, je vois ce qui te pose problème, et désolé si j'avais pas compris ta réponse comme cela.

    Alors, j'ai une page A (nofollow), qui est en fait ma page de recherche. "Malheureusement", j'y ai mis dessus les 20 dernières recherches pour que les gens aient des idées de quoi rechercher. Donc ces recherches renvoient vers les pages de traductions, supposons les pages C, comme décrit précédemment. Je souhaiterais donc que le PR de A, la page de recherche, soit transmis à C. Et si B fait un lien aussi vers C, c'est que c'est la page de la liste des traductions.

    C'est vrai que c'est compliqué, j'avoue, parce qu'il y a une page intermédiaire... Bon, je crois que je vais arrêter-là, parce que je m'y perds moi-même. Et en fait, le résultat au final sera le même. Si ce n'est que Google transmettrait plus de PR, et encore, c'est à voir...

    Ouais, en fait y'a pas de logique là-dedans puisque je pointe bien les mêmes pages au final, mais par 2 chemins différents... Donc merci Hetzeld pour ce rafraîchissement de mémoire :D

    Kmacleod, le Full Crawl n'arrive qu'une fois par mois, et uniquement sur tes nouvelles pages, si je ne me trompe pas ? Ou alors il va falloir que je révise sérieusement les pages de WRI moi...
     
  22. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 079
    J'aime reçus:
    333
    A priori je pense que le Full Crawl concerne toutes les pages.
     
  23. Yvan
    Yvan WRInaute discret
    Inscrit:
    6 Novembre 2002
    Messages:
    215
    J'aime reçus:
    0
    Pourtant il me semble que je suis le seul à recevoir autant de mails (donc un par page sur laquell est passée le Full Crawl) ?!

    Cela dit j'avais l'erreur de la parenthèse en plus dans la requête MySQL ($sql3 = ...), donc ça vient peut-être de là. Je remets le mail en place, et je vous préviens si y'a du changement...
     
  24. Yvan
    Yvan WRInaute discret
    Inscrit:
    6 Novembre 2002
    Messages:
    215
    J'aime reçus:
    0
    Donc c'est bien ce que je disais, même en mettant $sql3 à jour, j'ai bien un mail par page. Une chose qui j'espère sera un jour confirmée : personnellement, je pense que le Full Crawl n'affecte que les nouvelles pages, mais Olivier tu sembles dire que non, cela concerne toutes les pages à chaque Google Dance. Alors qu'en est-il ? On attend la GD d'Avril pour savoir :D ? Je pense que c'est encore le mieux, si elle ne tombe pas le 1er :lol:
     
Chargement...
Similar Threads - Saturation Google dû Forum Date
Saturation mémoire serveur. Administration d'un site Web 10 Août 2012
Saturation serveur Administration d'un site Web 1 Mars 2012
Problème sur serveur : Disque dur à 100% & Saturation sans raisons Administration d'un site Web 16 Juin 2011
Saturation du web Développement d'un site Web ou d'une appli mobile 26 Novembre 2009
Saturation de la bande passante?!? Administration d'un site Web 6 Avril 2009
Indexation Google refusée Crawl et indexation Google, sitemaps il y a 7 minutes
Comment apparaitre sur Google Discover Référencement Google Mercredi à 12:47
Url anormal 404 Google Analytics Google Analytics Mercredi à 12:09
Google rachète CloudSimple Google : l'entreprise, les sites web, les services Mardi à 08:36
Testeur Neilpatel : nb de visites TRES différent de Google Analytics Référencement Google Lundi à 10:49
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice