A quelle fréquence renouveler ses ( gros ) sitemaps ?

WRInaute accro
Bonjour

Bien qu'étant habitué aux problème référencement, je viens seulement de faire un script php capable de me refaire entièrement tous mes gros sitemaps en fonction du contenu de ma bdd.

J'ai déclenché ce script hier 27 Juin, et GWT m'annonce qu'il y aura plus de 200.000 urls à indexer ( en cours théoriquement ).

Cependant ce script ne met pas à jour de manière incrémentale, mais refait tous les sittemaps, avec la date du jour comme <lastmod>

Je pourrais remédier à celà, et faire une mise à jour purement incrémentale,cependant j'ai une question à poser :

A quelle fréquence est-il préférable de mettre à jour ses sitemaps ?

Quel délai entre deux mises à jour ?

Merci beaucoup de vos réponses.

Jean François Ortolo
 
WRInaute accro
Une fois par jour est suffisant (même si quitte à en faire un, le mieux est de le tenir à jour en temps réel), d'autant que Google n'a pas besoin du sitemap pour indexer un site. Ca peut juste être utile pour toi pour avoir une idée du ratio pages transmises / pages indexées.

Par contre, est-ce que toutes tes pages sont modifiées chaque jour ? Parce que sinon, modifier le lastmod en lui affectant à chaque MAJ la date du jour n'a aucun sens.
 
WRInaute accro
UsagiYojimbo a dit:
Une fois par jour est suffisant (même si quitte à en faire un, le mieux est de le tenir à jour en temps réel), d'autant que Google n'a pas besoin du sitemap pour indexer un site. Ca peut juste être utile pour toi pour avoir une idée du ratio pages transmises / pages indexées.

Par contre, est-ce que toutes tes pages sont modifiées chaque jour ? Parce que sinon, modifier le lastmod en lui affectant à chaque MAJ la date du jour n'a aucun sens.


Bonjour UsagiYojimbo

Toutes ces pages sont des "courses anciennes", dont le contenu ne change jamais.

J'ai mis comme <changefreq> : yearly pour les nouveaux types d'url, et daily pour les anciens types de ces urls, qui pointent en 301 sur les nouvelles urls.

Premier problème : Est-ce que celà a un inconvénient que le <lastmod> de toutes les urls des courses anciennes ( ancien et nouveau type d'urls ), change à chaque mise à jour ?

Deuxième problème : Vaut-il mieux mettre "never" comme <changefreq> pour le nouveau type d'url de ces courses, alors que ce nouveau type d 'url, n'est pas encre indexé ?

Idem pour les anciens types de ces urls, sachant qu'elles sont indexées ( plus de 60.000 pages ), mais quasiment toutes les pages indexée actuellement, devraient être reindexées, car elles n'ont plus le même contenu, suite à la refonte de ma base de données d'il y a quelques semaines ?

Super merci pour ta réponse. ;)

Remerciements chaleureux.

Jean François Ortolo
 
Olivier Duffez (admin)
Membre du personnel
je n'y connais rien en courses, mais quel est l'intérêt de faire une page pour chaque course passée ?
est-ce donc vraiment une bonne idée de faire indexer 200.000 pages qui en plus ne changent plus jamais ?

concernant ton sitemap, tu peux aussi faire une version texte brut. Tout le temps que tu perds à te poser des questions sur les options de paramétrage du XML, tu pourrais le passer à créer du contenu de qualité sur ton site
 
WRInaute accro
La voix de la sagesse. Sachant en effet que si le gros des pages ce sont les anciennes courses, quel intérêt de les garder accessibles ?
 
WRInaute accro
UsagiYojimbo a dit:
La voix de la sagesse. Sachant en effet que si le gros des pages ce sont les anciennes courses, quel intérêt de les garder accessibles ?


Bonjour UsagiYojimbo

J'avais 60.000 pages indexées...

Je viens de m'apercevoir, que les anciennes urls ne sont plus accessibles, ( erreur http 500 ), car elle sont url rewritées, pointent donc vers le script et le paramètre ancien, ce dernier script se chargeant de la redirection vers la nouvelle url, elle-même url rewritée.

Je ne peux pas faire de redirection 301 directe, car l'ancienne url est déjà url rewritée, et le script lancé ne peut plus faire de redirection 301 vers une url rewritée, elle même redirectionnée en 302...

Comment procéder pour faire cette redirection 301 d'une url rewritée vers une url rewritée, si un script est nécessaire pour celà ?

Merci beaucoup pour vos réponses.

Jean François Ortolo
 
WRInaute accro
Je vous demande pardon

Le problème est résolu.

Je croyais que le [L] à la fin d'une ligne, était pour continuer le .htaccess

J'ai enlevé le [L], çà roule.

Les redirections 301 fonctionnent.

Pfffouuu...

Merci beaucoup pour vos réponses.

Respectueusement.

Jean François Ortolo
 
Olivier Duffez (admin)
Membre du personnel
tu ne réponds que sur le plan technique, mais pas sur le fond : quel intérêt d'indexer ces pages ?
 
WRInaute accro
WebRankInfo a dit:
tu ne réponds que sur le plan technique, mais pas sur le fond : quel intérêt d'indexer ces pages ?


Bonjour Monsieur Olivier Duffez

En fait, j'ai de nombreuses pages indexées déjà, ( actuellement plus que 70.000 pages ), et à part ces pages de courses anciennes, il n'y a sur mon site, qu'une cinquantaine de pages... ;(

Ces ~ 50 pages sont pour la plupart : les courses du lendemain/après-midi, ou du soir/de la veille, qui changent tous les jours.

Ce que j'appelle "les courses anciennes", sont les courses passées avec les résultats et les rapports du pmu.

Ces courses apparaissent tous les jours ( à 6h, heure de mise à jour ), et sont maintenant ajoutées aux sitemaps de manière automatique à 6h15 ( mise à jour incrémentale du sitemap ).

La raison pour laquelle je laisse ces courses passées se faire indexer, est que je pensais que celà est mieux pour le référencement, que mon site soit visible sur un grand nombre de pages.

A côté de çà, je pense que je vais supprimer la mise à jour ( dans le sitemap ), des urls de l'ancien type ( redirectionnées en 301 vers le nouveau type d'url ), et ne mettre à jour que les urls nouvelle manière.

Je croyais qu'un site avec de nombreuses pages était plus visible ( toute chose égale par ailleurs ), qu'un site avec peu de pages...

Merci de me dire la conduite à tenir, la plus adaptée pour le référencement de mon site ?

Merci beaucoup beaucoup pour votre site, sans qui mon site n'aurait pu exister.

Respectueusement.

Jean François Ortolo
 
Olivier Duffez (admin)
Membre du personnel
ortolojf a dit:
La raison pour laquelle je laisse ces courses passées se faire indexer, est que je pensais que celà est mieux pour le référencement, que mon site soit visible sur un grand nombre de pages.
fais ton site en pensant d'abord aux internautes ;-) quel est l'intérêt pour eux de trouver des résultats dépassés quand ils font des recherches dans Google ? si tu risques de les décevoir, ce n'est pas une bonne idée
 
WRInaute passionné
Je pense que pour un prognistiqueur l'interet de garder les pages du passé est qu'il permet à ses lecteurs de vérifier ses performances passées. Ca me paraît même indispensable pour sa crédibilité. :)
 
WRInaute accro
WebRankInfo a dit:
ortolojf a dit:
La raison pour laquelle je laisse ces courses passées se faire indexer, est que je pensais que celà est mieux pour le référencement, que mon site soit visible sur un grand nombre de pages.
fais ton site en pensant d'abord aux internautes ;-) quel est l'intérêt pour eux de trouver des résultats dépassés quand ils font des recherches dans Google ? si tu risques de les décevoir, ce n'est pas une bonne idée


Bonjour Monsieur Duffez

Les internautes ont accès aux courses passées des 10 derniers jours seulement.

Du moins en naviguant sur le site, sinon on peut trouver toutes les courses ( comme Google ), mais pas les rapports pmu avant dix jours.

J'ai pensé que laisser ces 10 derniers jours à disposition des internautes, leur permettait de vérifier la justesse de mes pronostics, et surtout de faire des heuristiques sur la façon d'utiliser mes statistiques, en fonction de ces stats, et des arrivées après les courses.

Et... Durant ces dix derniers jours, Google a aussi accès ( par les liens ), aux courses passées.

Si les courses anciennes une fois indexées par Google, disparaissaient régulièrement, là j'aurais une très grosse floppée d'erreurs 404 ( pages plus accessibles ) ?

D'un côté, les visiteurs peuvent vérifier la justesse de mes pronos ( dans les courses passées ).

D'un autre côté, le contenu de mon site change ( les courses passées apparaissent ).

Si je supprimais l'accès ( à Google ) aux courses passées avant dix jours, l'effet sur mon référencement ( floppée d'erreurs 404 en très grand nombre ), ne serait -il pas négatif ?

Je remarque que, si mon site devenait payant, ce serait le cas : Ces courses passées d'il y a plus de 10 jours, seraient en accès payant, donc Google n'y aurait plus accès... ;(

Cependant , je ne compte pas mettre mon site en mode payant d'ici très longtemps. ( pas prévisible ).

Merci beaucoup pour votre aide.

Respectueusement.

Jean François Ortolo
 
Olivier Duffez (admin)
Membre du personnel
Ma question porte sur l'intérêt de laisser ces pages indexables, pas consultables.
Pourquoi ne pas mettre du noindex sur toutes les pages trop vieilles ?
 
WRInaute accro
WebRankInfo a dit:
Ma question porte sur l'intérêt de laisser ces pages indexables, pas consultables.
Pourquoi ne pas mettre du noindex sur toutes les pages trop vieilles ?


Bonjour Monsieur

Effectivement, vous avez raison.

Pour la mise à jour ( incrémentale ) des sitemaps, celà peut se faire d"éliminer les pages répondant à un critère d'ancienneté, et puis suivant le même critère, de mettre le <meta noindex > à l'affichage de ces pages.

Vous me conseilleriez de mettre en noindex les pages à quel délai d'ancienneté ?

Super merci pour vos réponses.

Respectueusement.

Jean François Ortolo
 
Olivier Duffez (admin)
Membre du personnel
il faut tout faire pour ne pas décevoir les internautes qui arrivent de Google sur le site.
à toi de régler le délai en fonction de ça
 
WRInaute accro
WebRankInfo a dit:
à toi de régler le délai en fonction de ça
A ce sujet je me disais que les fan de course de chevaux remontaient surement à "un certains temps" pour faire leur stats et qu'il serait bon de garder au moins la visibilité des courses sur cette durée.
 
WRInaute impliqué
si sur ces pages, il y avait moyen d'accéder à toutes les données d'un cheval, à toutes les éditions d'une course, alors toutes les pages auraient un interet.
 
WRInaute accro
WebRankInfo a dit:
il faut tout faire pour ne pas décevoir les internautes qui arrivent de Google sur le site.
à toi de régler le délai en fonction de ça


Bonjour Monsieur Duffez

J'ai quasiment terminé de mettre au point le script de mise à jour incrémentale des sitemaps.

J'envisage un délai de un an au delà duquel les pages seraient en noindex et n'apparaîtraient plus dans les sitemaps.

D'autre part, comme les sitemaps contiennent les urls des courses passées, sous leur ancien type ( redirectionné en 301 vers le nouveau type d'url ), ceci jusqu'au 30 Juin 2014, et puis évidemment aussi, les urls nouveau type des courses anciennes ( les deux types d'urls soumis à la limite de un an ), à partir de dans un an d'ici, il n'y aura plus que les urls ( pour les courses passées ) sous leur nouveau type.

Ainsi, j'aurai corrigé ce problème de changement de ma base de données, qui faisait que les anciens types d'urls, pointaient vers des contenus différents ( courses différentes), d'avant cette modification.

Ce délai de un an me semble un peu long, dans une première approche je pense l'appliquer très prochainement.

Une simple constante LIMIT facile à modifier est fixée au nombre de jours de ce délai (365 pour l'instant ).

Merci beaucoup pour vos réponses.

Mes respects.

Jean François Ortolo
 
WRInaute accro
Bonjour Monsieur

Voilà c'est fait.

Cependant, quand je teste sur GWT le chargement d'une page d'ancien type ( redirectionné en 301 vers le nouveau type d'url ), j'obtiens un petit triangle jaune : redirection", et la page n'est pas chargée.

Il n'y a que quand je clique sur le triangle jaune, puis "Suivre", que la page se charge, mais au lieu de "Terminé", celà indique : "Partiel".

Est-ce que je dois enlever mon sitemap spécifique des anciens types d'urls, ( elles sont mises à jour avec limite d'arrêt aujourd'hui 1er Juillet 2014 ), ou le laisser ?

L'autre sitemap ne concerne que le nouveau type des urls. avec également les quelques urls fixes externes.

Sur le Forum Google de GWT, quand j'ai demandé celà, j'ai reçu la réponse : Vous pouvez mettre ce que vous voulez dans vos sitemaps. ;)

Mais... S'il y a des erreurs dans GWT en visitant des urls redirectionnées (effectivement, ) en 301 c'est galère. ;(

Actuellement, j'ai environ 60.000 urls de l'ancien type indexées, et 530 urls du nouveau type indexées.

Les urls plus anciennes que un an, sont maintenant en noindex.

Maintenant les urls les plus anciennes figurant dans ces sitemaps, datent de: 1er Juillet 2013.

Merci de me dire s'il vaut mieux que j'enlève le sitemap de l'ancien type d'urls ( c'est déjà fait ), ou que je le laisse ?

Merci beaucoup pour vote aide.

Respectueusement.

Jean François Ortolo


PS

Correction après dernière vérification :

Les urls de l'ancien type sont bien accessibles en fin de compte.

Problème temporaire de GWT. ;(

Je ne sais toujours pas, si je dois laisser ou non le sitemap de ces anciens types d'urls.

Bien amicalement.

Jean Fraçois Ortolo


Re PS

De nouveau, les triangles jaunes il semblerait que GWT ait d es problèmes récurrents à suivre les 301. ;(

A qui se fier ?

Bien amicalement.

Jean François Ortolo
 
Olivier Duffez (admin)
Membre du personnel
c'est normal que Google indique qu'il y a des redirections
je n'ai pas suivi si tu as plusieurs sitemaps par type, mais il faut un sitemap des URL non redirigées (pour les faire indexer au final) et un autre des URL redirigées (pour les faire désindexer au final).
 
WRInaute accro
WebRankInfo a dit:
c'est normal que Google indique qu'il y a des redirections
je n'ai pas suivi si tu as plusieurs sitemaps par type, mais il faut un sitemap des URL non redirigées (pour les faire indexer au final) et un autre des URL redirigées (pour les faire désindexer au final).


Merci beaucoup beaucoup Monsieur Duffez

C'est fait.

J'ai un sitemap index, contenant un sitemap pour les urls de l'ancien type, et un sitemap contenant les urls du nouveau type, + les quelques urls fixes.

Ces deux sitemaps sont mis à jour automatiquement de manière incrémentale, le matin à 6h15.

J'ai remis le premier sitemap dans le sitemap index.

Mais... Je sens que je vais avoir des erreurs lors des visites vers les urls de l'ancien type. ;(

Les urls de l'ancien type, s'arrêtent au 1er Juillet 2014, alors que celles du nouveau type ( avec des id de courses au lieu de numcrs ) n'ont pas de limites.

Les deux type d'urls, ne peuvent remonter que jusqu'à un an avant avant la date du jour.

Je peux changer ( diminuer seulement ) ce délai de 365 jours, mais pas tellement l'augmenter, à moins de refaire entièrement les sitemaps.

Chaque sitemap, ne peut contenir au plus, que 45000 courses anciennes, au delà un nouveau sitemap est créé, et je reçois un mail me demandant d'ajouter le nouveau sitemap dans le sitemap index. ;)

Les sitemaps sont indexés, de la forme : sitemap1_x.xml (ancien type d 'urls ), et sitemap2_y.xml ( nouveau type d'urls ), ou x et y vont croissant, à partir de 1.

Pour l'instant x et y max sont à 1, et celà restera comme celà, car le nombre d 'url n'augmentera pas, vu la limite de un an.

Merci beaucoup beaucoup pour ton aide. ;)

Très très respectueusement et amicalement.

Jean François Ortolo
 
Discussions similaires
Haut