Saturation Google dû à l'URL Rewriting

WRInaute discret
Bonjour, je poste ça ici, mais ça devrait aussi se trouver dans la section URL Rewriting.

Voilà, mon site utilise l'URL Rewriting, et ça marche enfin parfaitement, enfin je veux dire par là que Google m'a enfin référencé, tout au moins il a bien commencé (merci Googlestats pour les infos !), et ce malgré mes Frames (au passage pour ceux qui en ont, gardez-les !).

Cependant, j'ai une page de recherche : http://www.lacoccinelle.net/search.html, et dessus j'y affiche les 20 dernières recherches. Google en a déjà pris un paquet de 20. Mais à chaque fois qu'il va passer, il va tomber sur une nouvelle version de la page de recherche, donc sur 20 nouvelles URL... Et sachant qu'elles sont toutes réécrites... Ca ne va pas être très propre tout ça, puisqu'il ne va pas arrêter de trouver des pages, et qu'il va sans arrêt les ajouter à son index. Pour moi, pas de problème, mais pour Google, cela ne risque-t-il pas d'être du temps perdu/place perdue ? Parce qu'il n'est pas près de voir toutes les URL possibles, même si derrière leur contenu change peu souvent. Et j'ai aussi un peu peur de voir mes stats saturées par GoogleBot...

Des idées/infos là-dessus, ou le mieux est-il encore de poser la question au concerné (donc à la Google équipe !) ?

Yvan.
 
Olivier Duffez (admin)
Membre du personnel
tu peux interdire à Google d'indexer cette page précisément, avec la balise meta robots
 
WRInaute discret
Oui, c'est vrai, j'avais pas pensé à ça... Mais la question est aussi : est-il utile que Google référence ces pages, qui ne sont qu'un mix de mes autres pages ? Je me dis que oui puisque cela me permettra d'avoir plus de pages, donc plus de pages avec mots-clé, mais comment Google pourra-t-il faire la différence avec des pages satellites ?

Sinon je sens que je vais opté pour le "noindex", parce que maintenant qu'il commence à suivre mes urls, j'ai aps envie de me faire blacklister !!

Merci,
Yvan.
 
Nouveau WRInaute
Pour infos, avant d'arriver a satturer google tu peux y aller !

Le mois dernier a cause de ( ou grace a ) l'url rewritting, google m'a référencé 55000 pages sans problèmes. Aucune utilitée ( ou trés peu en terme de trafic ), si ce n'est des erreurs du a certain bug de prog.

Pour information seulement.
 
WRInaute discret
Ah mon avis avant que Google sature à cause du trop grand nombre de page.. Y'a de la marge!

Le risque n'est t'il pas de ce faire Blacklister à cause d'un contenue trop dupliqué??
 
WRInaute passionné
perso au début je voulais qu'il en prenne un max.. il a meme été à 142 000 pages indexés (j'avais fait une erreur de SID dans mon forum)
maintenant que j'ai vu le taux de visiteurs rammené par rapport ma bande passante bouffée, j'ai préféré à fermer mes forums pour le non-membre (et donc les moteurs vu qu'ils ne sont pas membre), et je vais aussi virer mon url rewriting d'une partie de ma galerie photos...
Ma conclusion de mon expérience a donc été de savoir que ca ne sert à rien de rendre tout indexable...
 
WRInaute discret
Mitirapa a dit:
maintenant que j'ai vu le taux de visiteurs rammené par rapport ma bande passante bouffée, j'ai préféré à fermer mes forums pour le non-membre

Que veux tu dire ? Que ta bande passante a été bouffée à cause d'un trop grand nombre de visiteur ? Dans se cas c'est bien, non ?
 
WRInaute passionné
bouffé par les robots des moteurs...
googlebot+pompos+fast, etc.. ca fait bcp de traffic par ces bots pour pas bcp de retour de vrais visiteurs
 
WRInaute occasionnel
Bande passante...
Mitirapa a dit:
bouffé par les robots des moteurs...
googlebot+pompos+fast, etc.. ca fait bcp de traffic par ces bots pour pas bcp de retour de vrais visiteurs

C'est sûr que pour les sites qui se laissent accaparer progressivement la totalité de leur bande passante par les spiders, il faudrait inventer une nouvelle balise du type:
<META NAME="Humans" CONTENT="indexation en cours, Désolé nofollow">
 
WRInaute discret
Bonjour, je rentre juste de WE, et la surprise, c'est aussi les 4000 mails de Google Stats !! Et oui, le problème n'est pas seulement que Google m'indexe les pages, mais comme le dit Mitirapa, c'est que ça bouffe de la bande-passante au max. De plus, si je laisse faire Google, il n'en finira pas de trouver des pages (car les recherches réalisées sur mon site font parties des URL !). Donc forcément, il me faut le limiter. Je sais bien que je ne risque pas de les saturer, mais bon, j'ai déjà 4000 pages indexes, alors que seulement 600 suffiraient. J'ai donc mis un noindex/nofollow sur ma page de recherche. En sachant cependant que mes pages restent accessibles par d'autres liens.

Une question me vient : si Google référence une page, mais ne suit pas les liens (à cause du "nofollow"), se servira-t-il tout de même de cette page pour calculer son PR ? En clair s'il voit un lien d'une page A (nofollow) vers une page B déjà indexée, l'inclut-il dans son algorithme pour calculer le PR de B ?

C'est tout sinon, merci de vos réponses :D
 
Olivier Duffez (admin)
Membre du personnel
pour le pb de GoogleStats (même s'il y aura sûrement une nouvelle version d'ici la prochaine Google Dance) :
1/ dans googlestats.inc.php : cherche les lignes ressemblant à ça :
Code:
          $sql3 .= " WHERE ip LIKE '".$FULL_CRAWL_IP."%'";
          $sql3 .= " AND TO_DAYS(NOW()) - TO_DAYS(date) < $NB_J_DET_FULL_CRAWL";
et corrige-les pour qu'elles soient identiques à ceci.
2/ pour éviter de recevoir un message sans texte ( :oops: ), toujours dans le meme fichier, ajoute en haut :
Code:
include $DOCUMENT_ROOT."/googlestats/lang.$LANGUE.php";

ceci dit apparement GoogleBot aime bien ton site !
 
WRInaute discret
Salut Olivier, je n'ai pas vu de différence entre le code sql3 du script que j'ai et de celui que tu as posté. Ca doit limiter le nombre de mail que je reçois, c'est ça ?D'après ce que j'ai compris, ça ne limite pas, et ça m'envoie un mail par page sur laquelle le Full Crawl est passé. C'est pas bien grave, j'ai encore plus limité mes pages grâce au noindex/nofollow, je ne devrais plus recevoir de mails. Et de toute façon, je les laisse, ça me permet de voir l'activité de mon cher GoogleBot.

Quant au $LANGUE, je le savais, puisque c'est moi qui t'ai fait passé le mot :wink:

Mais je ne regrette en rien cette toute dernière version de GS, au contraire, ça m'a permi de voir que Google et les autres moteurs risquaient de tourner en rond sur mon site...

A plus, et merci encore de ta spontanéité !
 
WRInaute occasionnel
Yvan a dit:
Une question me vient : si Google référence une page, mais ne suit pas les liens (à cause du "nofollow"), se servira-t-il tout de même de cette page pour calculer son PR ? En clair s'il voit un lien d'une page A (nofollow) vers une page B déjà indexée, l'inclut-il dans son algorithme pour calculer le PR de B ?

Juste pour dire que la réponse à cette question m'intéresse également...même si il y a peu de change que quelqu'un soit informé. C'est très proche de https://www.webrankinfo.com/forum/t/index-nofollow.2079/ resté sans réponse.

Katia.
 
WRInaute discret
Katia, je pense que le plus simple reste encore de demander à l'équipe de Google. Si j'ai le temps, je le ferais ce soir.

Olivier, j'ai trouvé la parenthèse fautive en effet, par contre je ne vois pas ce que cela pourrait changer au niveau des mails (bien que la requête MySQL marche désormais). Si j'ai bien compris, on reçoit un mail par page crawlée par le Full Crawl, c'est bien ça ?

A plus,
 
WRInaute passionné
Katia a dit:
Yvan a dit:
Une question me vient : si Google référence une page, mais ne suit pas les liens (à cause du "nofollow"), se servira-t-il tout de même de cette page pour calculer son PR ? En clair s'il voit un lien d'une page A (nofollow) vers une page B déjà indexée, l'inclut-il dans son algorithme pour calculer le PR de B ?
Juste pour dire que la réponse à cette question m'intéresse également...même si il y a peu de change que quelqu'un soit informé. C'est très proche de https://www.webrankinfo.com/forum/t/index-nofollow.2079/ resté sans réponse.
Katia.
Katia et Yvan,

Pour répondre à cette question, la réponse logique me semble être 'non'.

Lorsqu'on donne l'instruction 'nofollow', on demande expressément de ne pas prendre en considération les liens de la page A, quelles que soient les pages vers lesquelles ces liens sont émis.
Ces liens seront donc ignorés et de ce fait ne pourront pas intervenir dans le calcul du PR d'autres pages.

Dan
 
WRInaute passionné
Je n'ai pas regardé le détail du code, mais celà devrait envoyer un mail unique au premier passage du bot pour dire le Crawl commence pour le site.
 
WRInaute discret
Hetzeld, je me suis mal fait comprendre semble-t-il :
soit la page A et la page B qui font chacune un lien vers C. Sur A je mets un "nofollow", parce que je ne veux pas que Google suive certains de ses liens. Est-ce que le PR de la page C, qui est dans l'index puisque pointée par B (en "index,follow"), est calculé aussi à partir du PR de A ou pas ? Google sait qu'il y a un lien de A vers C, puisqu'il référence la page, mais en tient-il compte dans son algo ?

Kmacleod, d'après ce que j'en ai compris, le script t'envoie un mail par page crawlée dès qu'il détecte le full crawl, car la seule variable utilisée est le $NB_J_DET_FULL_CRAWL (de mémoire), qui détermine le nombre de jours minimum entre 2 Full Crawl. Donc a priori ça devrait t'envoyer un mail par page. En tout cas c'est ce que ça a fait chez moi !!! Et c'est pas plus mal, parce que au moins tu sais si Google est passé, et surtout sur quelle page (à ajouter d'ailleurs dans le message envoyé, qu'en penses-tu Olivier ?).

A plus,
 
WRInaute passionné
le script t'envoie un mail par page crawlée dès qu'il détecte le full crawl

Certes si c'est ce que celà fait.
Ce que celà devrait faire (amha), c'est un mail unique pour alerte, ensuite le détail des pages indexées est dans les stats de googlestats.
C'est peut-être ce qui était prevu.
Avoir un mail à chaque page, ce n'est pas gérable, ou alors je mets une bal exclusive sur un compte internet :cry:
 
WRInaute passionné
Yvan a dit:
Hetzeld, je me suis mal fait comprendre semble-t-il :
soit la page A et la page B qui font chacune un lien vers C. Sur A je mets un "nofollow", parce que je ne veux pas que Google suive certains de ses liens. Est-ce que le PR de la page C, qui est dans l'index puisque pointée par B (en "index,follow"), est calculé aussi à partir du PR de A ou pas ? Google sait qu'il y a un lien de A vers C, puisqu'il référence la page, mais en tient-il compte dans son algo ?
Yvan,

Google sait qu'il y a un lien de A vers C, mais comme tu lui demandes spécifiquement de ne pas le suivre, il ne le considère pas comme tel. Donc je maintiens ma réponse, la logique voudrait que le PR ne soit pas transmis ...

(c'est mon avis et je le partage :lol: )

Dan

PS: tu t'étais parfaitement fait comprendre, sauf que je ne perçois toujours pas l'utilité du "nofollow" dans le cas que tu décris, surtout s'il y a un "follow" au départ de la page B :roll:
Quel en est l'intérêt ?
 
WRInaute discret
Ok Hetzeld, je vois ce qui te pose problème, et désolé si j'avais pas compris ta réponse comme cela.

Alors, j'ai une page A (nofollow), qui est en fait ma page de recherche. "Malheureusement", j'y ai mis dessus les 20 dernières recherches pour que les gens aient des idées de quoi rechercher. Donc ces recherches renvoient vers les pages de traductions, supposons les pages C, comme décrit précédemment. Je souhaiterais donc que le PR de A, la page de recherche, soit transmis à C. Et si B fait un lien aussi vers C, c'est que c'est la page de la liste des traductions.

C'est vrai que c'est compliqué, j'avoue, parce qu'il y a une page intermédiaire... Bon, je crois que je vais arrêter-là, parce que je m'y perds moi-même. Et en fait, le résultat au final sera le même. Si ce n'est que Google transmettrait plus de PR, et encore, c'est à voir...

Ouais, en fait y'a pas de logique là-dedans puisque je pointe bien les mêmes pages au final, mais par 2 chemins différents... Donc merci Hetzeld pour ce rafraîchissement de mémoire :D

Kmacleod, le Full Crawl n'arrive qu'une fois par mois, et uniquement sur tes nouvelles pages, si je ne me trompe pas ? Ou alors il va falloir que je révise sérieusement les pages de WRI moi...
 
Olivier Duffez (admin)
Membre du personnel
Yvan a dit:
Kmacleod, le Full Crawl n'arrive qu'une fois par mois, et uniquement sur tes nouvelles pages, si je ne me trompe pas ?
A priori je pense que le Full Crawl concerne toutes les pages.
 
WRInaute discret
Pourtant il me semble que je suis le seul à recevoir autant de mails (donc un par page sur laquell est passée le Full Crawl) ?!

Cela dit j'avais l'erreur de la parenthèse en plus dans la requête MySQL ($sql3 = ...), donc ça vient peut-être de là. Je remets le mail en place, et je vous préviens si y'a du changement...
 
WRInaute discret
Donc c'est bien ce que je disais, même en mettant $sql3 à jour, j'ai bien un mail par page. Une chose qui j'espère sera un jour confirmée : personnellement, je pense que le Full Crawl n'affecte que les nouvelles pages, mais Olivier tu sembles dire que non, cela concerne toutes les pages à chaque Google Dance. Alors qu'en est-il ? On attend la GD d'Avril pour savoir :D ? Je pense que c'est encore le mieux, si elle ne tombe pas le 1er :lol:
 
Discussions similaires
Haut