Le crawl qui suit la Google Dance

WRInaute occasionnel
A en croire l'agent placé sur différents sites, le nombre de pages crawlées par jour a été plus élevé ces trois derniers jours.
 
WRInaute occasionnel
Le mien en fait partie, et ça se voit très nettement sur le rapport
Mais il semblerait que ça ait commencé la veille de la GGdance.
Si on regarde le graph de WRI c'est également le cas.
Cependant, pour d'autres sites c'est moins visible, plus étalé.
 
WRInaute impliqué
Ca crawle dur en ce moment même chez mois. 4GGBots me font l'honneur de leur visite:
64.68.82.176
64.68.82.135
64.68.82.144
64.68.82.199
 
Olivier Duffez (admin)
Membre du personnel
Digit a dit:
Le mien en fait partie, et ça se voit très nettement sur le rapport
Mais il semblerait que ça ait commencé la veille de la GGdance.
Si on regarde le graph de WRI c'est également le cas.
Cependant, pour d'autres sites c'est moins visible, plus étalé.
pourrais-tu changer la taille des graphiques ? on n'y voit pas grand chose pour l'instant... pourtant ça a l'air très intéressant.

pour info : j'avais désactivé l'enregistrement des visites des robots dans le forum pendant qq jours, quand j'ai eu des soucis avec le serveur. c'est remis en place depuis.
 
Olivier Duffez (admin)
Membre du personnel
quelques remarques :
- je ne pense pas qu'il soit nécessaire d'avoir un PR>=4 pour utiliser la requete site: qui liste les pages indexées par Google
- peux-tu préciser ce que signifie ton échelle de 1 à 10 en ordonnée ?
- le nb de pages indexées par Google est-il recalculé régulièrement ?
 
WRInaute occasionnel
1- c'est probable
2-l'échelle de 1 à 10 correspond à l'échelle du PR, mais les autres courbes n'ont pas cette nature d'échelle, je rajoute donc la précision dans chaque légende.
3-Oui, une fois par jour
 
WRInaute occasionnel
Juste un petite remarque technique sur les impacts des crawls post-GGDance :
Ceux-ci parcourent plus de page par jour qu'en temps normal, ça peut avoir un impact important sur les ressources d'un site hébergeant quelques miliers ou dizaines de miliers de pages. Voici donc quelques astuces pour réduire cette charge supplémentaire :
- utiliser une redirection 301 pour toute page de type nomdedomaine.com vers www .nomdedomaine.com Il est effectivement inutile que le bot lise deux fois la même page (de temps en temps sur le domaine, de temps en temps sur le sous-domaine www). Un thread sur le forum explique comment le faire via le fichier .htaccess
- Bien gérer ses paramètres dynamiques : si une page est du format h**p://www.domaine.com/page.php?p1=truc&p2=machin, éviter de faire des liens sur d'autres pages de la forme h**p://www.domaine.com/page.php?p2=machin&p1=truc. Cette inversion de paramètres fait que la page pourra être crawlée avec ces deux versions alors que c'est un même contenu.
L'idée est de faire crawler l'essentiel et non pas plusieurs fois la même chose, on augmente nos chances d'avoir un crawl exhaustif
 
Discussions similaires
Haut