Formation par Olivier Duffez

Formation au référencement par Olivier Duffez, créateur de WebRankInfo !
Une formule efficace alliant théorie et pratique, avec une haute disponibilité des intervenants
Cette formule a déjà convaincu plusieurs centaines d'entreprises, pourquoi pas vous ?
Réservez vite votre place en ligne (convention possible pour imputer sur le budget formation)

Formation référencement Marseille

Identification des pages modifiées

Poster un nouveau sujet Imprimer cette discussion    Forum -> Tests et études de cas   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
Digit
WRInaute passionné
WRInaute passionné

Inscrit le: 18 Avr 2003
Messages: 613
Localisation: La tête dans les logs

URL permanente de ce messagePosté le : Lun Fév 16, 2004 11:22    Sujet du message: Identification des pages modifiées

Je viens de faire un petit test (11h).
Sur un site de 7580 pages connues de Google (PR5), j'ai effectué une mise à jour globale hier soir vers 21h: changement de look, de structure interne, d'URL... Bref, c'est comme si c'était un nouveau site, mais je conserve quand même 50% des URL valides (mais 100% des pages ont changé).
Je regarde mes logs ce matin, je constate que Google a augmenté sa fréquence de visites : 120 pages vues par heure.
Parmi les pages crawlées, la moitié (57%) sont des nouvelles URL et 3% des page correspondent à mes URL désuetes.
Conclusions :
- Google est un rapide, en moins de 12h il a remarqué des modifs majeurs et il les aspire
- Google doit probablement mémoriser pour chaque page de sa base une information de date de dernière modification. Si une page est modifiée (et dans sa structure de liens) alors il doit déclencher un crawl sur les pages liées. C'est à confirmer unitairement.
- Dans les crawls issus de ces modifs, Google ne décide pas de mettre à jour sa base de liens existantes mais priorise de suivre les nouveaux liens découverts (proportion de 3% par rapport aux 57%). Il mise donc sur la fraîcheur de son index car il aura tout le temps de supprimer les vieilles pages qui restent cependant accessibles dans son cache, donc ça ne pénalise pas les utilisateurs de Google (et ceux-ci préfèrent avoir les nouvelles pages pour être plus pertinant).

Edition à 11h23 :
Il est passé à une fréquence de 280 pages par heure, il doit donc avoir identifié un volume conséquent de pages à recrawler suite à son crawl en cours.
- La fréquence du bot est définie en live selon le volume de pages changées sur le site
- Plutôt que d'allonger la durée du crawl, Google augmente la fréquence.

Edition 11:36 :
Ma première conclusion a été prématurée sur les nouvellespages. Actuellement il est repassé sur les anciennes ce qui rééquilibre le taux. Par contre il monte toujours sa fréquence, il en est à 350 pages en une heure
 
Digit Visiter le site web du posteur
WebRankInfo
Administrateur du site
Administrateur du site

Inscrit le: 19 Avr 2002
Messages: 14192
Localisation: Toulouse

URL permanente de ce messagePosté le : Lun Fév 16, 2004 20:23    Sujet du message: Identification des pages modifiées

as-tu la possibilité de vérifier quand ces pages modifiées seront visibles dans les résultats de Google ?
as-tu un logiciel d'analyse du positionnement qui te permettrait de savoir si tu vas bénéficier d'une prime de fraicheur (ou bien tu peux le faire à la main) ?
 
WebRankInfo Visiter le site web du posteur
Digit
WRInaute passionné
WRInaute passionné

Inscrit le: 18 Avr 2003
Messages: 613
Localisation: La tête dans les logs

URL permanente de ce messagePosté le : Lun Fév 16, 2004 21:02    Sujet du message: Identification des pages modifiées

Je vais vérifier, et si elle ne le sont pas toutes à la fois je noterai le PR de chacune.
Désolé, je n'utilise pas de logiciel de positionnement, mais je me souviens de mon classement sur les 10 principaux mots-clefs (ou groupes de mots)

Edité le 17 :
Hop, c'est en ligne
Google l'a pris en compte dans son cache (page de PR5), il a noté une date de modif du 15 février, je pense qu'il se base sur l'heure des data-centers et non pas l'heure française pour ce calcul de date car ma modif a été faite vers 22h le dimanche et je n'ai pas constaté de passage de GGBot sur la page d'accueil dans les 2h qui ont suivi.
Les autres pages sont aussi en cache, daté du 16 février (pages de PR4, PR3 et PR0). Les pages mises à jour dans le cache peuvent posséder des paramètres dans l'URL, donc il semblerait que cela n'influe pas Google pour le rafraîchissement de son cache.
Par contre, il n'y a qu'une vingtaine de pages mises à jour dans le cache Google, à mettre en oposition au volume de pages visitées par le bot.
Ma page principale est montée d'une position sur "contemporary artists". Il y a probablement un peu de prime de fraîcheur, à moins que ce soit dû à la danse en cours.
 
Digit Visiter le site web du posteur
Digit
WRInaute passionné
WRInaute passionné

Inscrit le: 18 Avr 2003
Messages: 613
Localisation: La tête dans les logs

URL permanente de ce messagePosté le : Lun Fév 23, 2004 14:59    Sujet du message: Identification des pages modifiées

J'ai à nouveau un maxi crawl, de l'ordre de 340 pages par heure depuis ce matin. Petite particularité, aucune nouvelle URL n'est parcourue, simplement les anciennes structures.
Un crawl entre les danses doit donc se faire en plusieurs étapes :
1- l'analyse des nouvelles pages et leur récupération,
2- l'identification des anciennes pages qui seraient supprimées (en erreur 404).
A priori, la purge des pages en 404 se ferait sans que le crawl classique n'est leiu : ces deux opérations de crawl sont exclusives.
 
Digit Visiter le site web du posteur
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Tests et études de cas Toutes les heures sont au format GMT + 1 Heure
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort