Pages indexées et en cache, la même chose?

WRInaute impliqué
Bonjour,

Je suis complètement perdu sur le coup.

Mon problème principal vient du fait que le bot Google met un temps infini (5 jours en fait) à rafraichir le cache des pages dont le contenu est modifié toutes les douze heures.
Très peu modifié ceci dit mais cela concerne des pages plutôt "hautes" dans l'arborescence du site.
Mettez moi sur la voie, il faut un certain pourcentage de modification pour que le cache soit rafraichi?

De l'incompréhension ensuite.
J'ai 79452 pages indexées dans les sitemaps (sur 300.000 proposées et le double d'existantes) d'après GWT mais 1400 d'après la commande site: .Pourquoi un tel écart?
J'utilise la recherche Google sur mon site, laquelle de ses valeurs sera utilisée?

Derniers points, pourquoi certaines pages se retrouvent en cache et d'autres non?

De mon temps c'était plus simple Google :lol:
Merci par avance pour vos réponses.
 
WRInaute discret
Bonjour :)
Pour répondre à la question d'après expérience : NON
les pages indexées sont les pages vu telles qu'elles étaient lors de la dernière visite de Google et les pages en cache sont des pages indexées par Google et affichées dans les SERPs mais pour l'instant T (tel qu'indiqué par Google dans le message de la page en cache) c'est Google qui décide mais le cache ne correspond pas à la page vue à la dernière visite!
Le cache met du temps à être actualisé mais ce n'est qu'un indicateur d'un instant T choisi par Google mais il n'est pas significatif de "l'activité" du bot.
En gros il ne sert à rien de se focaliser sur le cache car Google passe fréquement et si une mise à jour a été faite il l'a certainement vue mais ne l'indique pas, du moins pas tout de suite et encore moins dans ce fameux cache!

Certaines pages peuvent être interdites de cache par la meta noarchive, ou d'autres très récentes, nouvellement indexées n'ont pas encore été analysées en totalité par le bot et n'apparaissent donc pas encore en cache.
Les pages très linkées et dont le contenu change régulièrement voient leur cache plus souvent mis à jour.
Mais encore une fois, le cache n'est qu'un simple indicateur de l'état d'une page vu par Google et sert aussi d'avoir quelque chose à afficher au cas où la page ne serait pas disponible

Les SERPS affichent en général la dernière version "crawlée" d'une page alors que l'état en cache est celle d'après la dernière analyse
 
WRInaute impliqué
Ca c'est de la réponse :)

Ca explique beaucoup de choses de mon côté.
Merci d'avoir pris le temps de l'écrire :D
 
Nouveau WRInaute
Une page sans cache mais indexée ressort moins sur la requête principale qu'une page avec cache également indexée, ceci se vérifie sur des résultats où l'on possède un montage de pages dynamiquement (depuis BD ) créées où les requêtes sont valorisées de manière similaire sur tout le site, les pages peu en concurrence ( nbre de résultats par exemple 10 fois inférieur sur la requête ) seront indexées et mises en cache rapidement alors que les pages répondant à des requêtes concurrentielles seront indéxées, mais pas mise en cache, et ressortiront nettement moins : voir pas du tout généralement dans un premier temps.
Je pense à un contrôle limitatif du trafic en fonction des termes à indexer.
Expérience sur site à 30.000 visites/uniques jour où il reste énormément de lacunes dans le positionnement de certaines pages, non expliqué, où certaine pages "n'éxistent pas" dans les résultats, alors que d'autres scrictement similaires en optimisation sortent en tête sur des milli(ers/ons) de résultats.
Je me répète : c'est pour moi une certitude que le trafic n'est pas que lié uniquement à une optimisation et à une popularité mais bien également à un contrôle limitatif du trafic en fonction de notre activité et des termes à indexer.
 
Discussions similaires
Haut