| |
|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
Digit WRInaute passionné

Inscrit le: 18 Avr 2003 Messages: 613 Localisation: La tête dans les logs
|
Posté le : Lun Fév 16, 2004 11:22 Sujet du message: Identification des pages modifiées |
|
|
Je viens de faire un petit test (11h).
Sur un site de 7580 pages connues de Google (PR5), j'ai effectué une mise à jour globale hier soir vers 21h: changement de look, de structure interne, d'URL... Bref, c'est comme si c'était un nouveau site, mais je conserve quand même 50% des URL valides (mais 100% des pages ont changé).
Je regarde mes logs ce matin, je constate que Google a augmenté sa fréquence de visites : 120 pages vues par heure.
Parmi les pages crawlées, la moitié (57%) sont des nouvelles URL et 3% des page correspondent à mes URL désuetes.
Conclusions :
- Google est un rapide, en moins de 12h il a remarqué des modifs majeurs et il les aspire
- Google doit probablement mémoriser pour chaque page de sa base une information de date de dernière modification. Si une page est modifiée (et dans sa structure de liens) alors il doit déclencher un crawl sur les pages liées. C'est à confirmer unitairement.
- Dans les crawls issus de ces modifs, Google ne décide pas de mettre à jour sa base de liens existantes mais priorise de suivre les nouveaux liens découverts (proportion de 3% par rapport aux 57%). Il mise donc sur la fraîcheur de son index car il aura tout le temps de supprimer les vieilles pages qui restent cependant accessibles dans son cache, donc ça ne pénalise pas les utilisateurs de Google (et ceux-ci préfèrent avoir les nouvelles pages pour être plus pertinant).
Edition à 11h23 :
Il est passé à une fréquence de 280 pages par heure, il doit donc avoir identifié un volume conséquent de pages à recrawler suite à son crawl en cours.
- La fréquence du bot est définie en live selon le volume de pages changées sur le site
- Plutôt que d'allonger la durée du crawl, Google augmente la fréquence.
Edition 11:36 :
Ma première conclusion a été prématurée sur les nouvellespages. Actuellement il est repassé sur les anciennes ce qui rééquilibre le taux. Par contre il monte toujours sa fréquence, il en est à 350 pages en une heure |
|
| |
|
 |
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 14192 Localisation: Toulouse
|
Posté le : Lun Fév 16, 2004 20:23 Sujet du message: Identification des pages modifiées |
|
|
as-tu la possibilité de vérifier quand ces pages modifiées seront visibles dans les résultats de Google ?
as-tu un logiciel d'analyse du positionnement qui te permettrait de savoir si tu vas bénéficier d'une prime de fraicheur (ou bien tu peux le faire à la main) ? |
|
| |
|
 |
Digit WRInaute passionné

Inscrit le: 18 Avr 2003 Messages: 613 Localisation: La tête dans les logs
|
Posté le : Lun Fév 16, 2004 21:02 Sujet du message: Identification des pages modifiées |
|
|
Je vais vérifier, et si elle ne le sont pas toutes à la fois je noterai le PR de chacune.
Désolé, je n'utilise pas de logiciel de positionnement, mais je me souviens de mon classement sur les 10 principaux mots-clefs (ou groupes de mots)
Edité le 17 :
Hop, c'est en ligne
Google l'a pris en compte dans son cache (page de PR5), il a noté une date de modif du 15 février, je pense qu'il se base sur l'heure des data-centers et non pas l'heure française pour ce calcul de date car ma modif a été faite vers 22h le dimanche et je n'ai pas constaté de passage de GGBot sur la page d'accueil dans les 2h qui ont suivi.
Les autres pages sont aussi en cache, daté du 16 février (pages de PR4, PR3 et PR0). Les pages mises à jour dans le cache peuvent posséder des paramètres dans l'URL, donc il semblerait que cela n'influe pas Google pour le rafraîchissement de son cache.
Par contre, il n'y a qu'une vingtaine de pages mises à jour dans le cache Google, à mettre en oposition au volume de pages visitées par le bot.
Ma page principale est montée d'une position sur "contemporary artists". Il y a probablement un peu de prime de fraîcheur, à moins que ce soit dû à la danse en cours. |
|
| |
|
 |
Digit WRInaute passionné

Inscrit le: 18 Avr 2003 Messages: 613 Localisation: La tête dans les logs
|
Posté le : Lun Fév 23, 2004 14:59 Sujet du message: Identification des pages modifiées |
|
|
J'ai à nouveau un maxi crawl, de l'ordre de 340 pages par heure depuis ce matin. Petite particularité, aucune nouvelle URL n'est parcourue, simplement les anciennes structures.
Un crawl entre les danses doit donc se faire en plusieurs étapes :
1- l'analyse des nouvelles pages et leur récupération,
2- l'identification des anciennes pages qui seraient supprimées (en erreur 404).
A priori, la purge des pages en 404 se ferait sans que le crawl classique n'est leiu : ces deux opérations de crawl sont exclusives. |
|
| |
|
 |
| |
|
|
|
|
Autres sujets de discussion :
|
|