Formation par Olivier Duffez

Formation au référencement par Olivier Duffez, créateur de WebRankInfo !
Une formule efficace alliant théorie et pratique, avec une haute disponibilité des intervenants
Cette formule a déjà convaincu plusieurs centaines d'entreprises, pourquoi pas vous ?
Réservez vite votre place en ligne (convention possible pour imputer sur le budget formation)

Formation référencement Marseille

comment générer un sitemap de plus de 108 millions de pages

Aller à la page 1, 2  Suivante
Poster un nouveau sujet Imprimer cette discussion    Forum -> Développement d'un site Web   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
johnny-57
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 20 Avr 2007
Messages: 115

URL permanente de ce messagePosté le : Mar Avr 08, 2008 22:31    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

Bon voilà mon problème,

Je doit générer un sitemap pour un total de plus de 108 millions de pages, oui toutes du même site Wink

On sait que google n'accepte que 50000 liens par sitemap, donc ça me fait plus de 2000 fichier sitemap à générer.

Mais mon problème c'est de savoir, comment le générer !?

Je vais pas mettre un logiciel à crawler tout ça, ça prendra des jours, en plus scinder les résultats par lots de 50000 ça va être la galère Crying or Very sad

Générer les sitemaps par un script php me parait également très lourd.

Vous auriez une solution ? parceque là je sèche Embarassed
 
johnny-57
UsagiYojimbo
WRInaute accro
WRInaute accro

Inscrit le: 23 Nov 2005
Messages: 2752
Localisation: Lyon, capitale des Gaules

URL permanente de ce messagePosté le : Mar Avr 08, 2008 22:51    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

Perso je soumettrais dynamiquement à Google un index de sitemap en php qui se chargerait de me générer des fichiers sitemap à raison d'un seuil de 50 000 liens par fichier :

https://www.google.com/webmasters/tools/docs/en/protocol.html
 
UsagiYojimbo Visiter le site web du posteur
johnny-57
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 20 Avr 2007
Messages: 115

URL permanente de ce messagePosté le : Mar Avr 08, 2008 23:00    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

Ben je pense que générer par un script php autant de fichier sitemap que nécessaire est la solution la plus logique.
Un logiciel planterais vite avec un volume pareil.
Mais j'ai un peu peur de la réaction du serveur quand je vais lui demander de générer un fichier de 50000 liens tiré de la base mysql ça risque de ramer grave non ?
 
johnny-57
chtipepere
WRInaute impliqué
WRInaute impliqué

Inscrit le: 08 Jan 2004
Messages: 467

URL permanente de ce messagePosté le : Mar Avr 08, 2008 23:02    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

Perso, j'ai installé le script en Python fournit par Google sur mon dédié, et la génération de sitemap est un vrai plaisir car totalement automatisé Smile
Il gère les indexs de sitemap, compresse les fichiers, ne mets que 50.000 liens par page, et se base sur les logs Apache pour connaître les pages à indexer et leur donne une importance selon la fréquence à laquelle elle sont appelées.
Un petit fichier XML, une petite tâche CRON, et zou, je m'en occupe plus.
Lorsque j'ai des alertes dans GWT quant à des erreurs dans mon sitemap, je sais que ça vient d'un problème sur le site, ça aussi c'est pratique.
 
chtipepere Visiter le site web du posteur
johnny-57
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 20 Avr 2007
Messages: 115

URL permanente de ce messagePosté le : Mar Avr 08, 2008 23:11    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

Mais si il se base sur les log apache pour générer le sitemap, il faudrait donc quand même lancer un logiciel genre xenu afin qu'il crawl toutes les pages pour qu'elles soient dans les logs apache et donc prise en compte par le script pour la génération du sitemap.
Et reste encore le problème de la charge serveur, quand le cron va commencer à générer plus de 2000 fichiers sitemap de 50000 liens chacun ça risque pas de faire souffrir le serveur ?
 
johnny-57
tonguide
WRInaute accro
WRInaute accro

Inscrit le: 28 Nov 2003
Messages: 1152

URL permanente de ce messagePosté le : Mer Avr 09, 2008 1:09    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

Quoiqu'il arrive, il va bien falloir que tu les génères d'une manière ou d'une autre. Donc que ce soit d'une façon ou d'une autre, il faudra afficher 50 000 liens sur une page * 2000.

Personnellement, je ferai un truc dynamique, comme si c'était ton site, et ça l'affiche quand google vient dessus (à la limite tu le mets en cache au premier passage).

Sinon, tu pourrais peut-être trier tes pages, dans 108 millions, il doit y avoir un paquet de déchet (en espérant que ce ne soit pas la majorité, mais tel n'est pas la question Wink)
 
tonguide Visiter le site web du posteur
Hoho
WRInaute passionné
WRInaute passionné

Inscrit le: 10 Jan 2006
Messages: 514

URL permanente de ce messagePosté le : Mer Avr 09, 2008 2:44    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

108 ... millions. Çà existe ? A moins que tu t'occupes de Wikipedia...ou de EBay...
 
Hoho
johnny-57
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 20 Avr 2007
Messages: 115

URL permanente de ce messagePosté le : Mer Avr 09, 2008 6:17    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

Citation:

108 ... millions. Çà existe ? A moins que tu t'occupes de Wikipedia...ou de EBay...


En fait ça n'existe pas encore les 108 millions de pages mais ça va arriver d'ici à une dizaine de jour maximum. Le site fait actuellement prés de 400.000 pages et passera en une fois à 108 millions supplémentaires. Je me demande même quelle sera l'impact sur le référencement d'autant de page, est ce que google référencera mieux un site qui a plusieurs millions de page plutôt qu'un site qui n'en ai que quelques centaines de milliers, faudra que j'essaie de contrôler ça tien.

En fait, même si je peu pas trop en parler, le concept est simple.

Un site qui propose un peu plus de 3000 sujets différentes fait une page de présentation personnalisé pour chaque activité pour chaque ville de France.
Le calcul est vite fait : 3000 X 36000 communes = 108.000.000 de pages.
Une prévision d'ajout de 60 à 100 nouveau sujet par ville en moyenne et par mois et dors et déjà planifiée ce qui implique 2.160.000 à 3.600.000 nouvelles pages chaque mois.
Vous comprendrez qu'à ce rythme je n'ai aucune envie de le faire en manuel.

Citation:

Quoiqu'il arrive, il va bien falloir que tu les génères d'une manière ou d'une autre. Donc que ce soit d'une façon ou d'une autre, il faudra afficher 50 000 liens sur une page * 2000.

Personnellement, je ferai un truc dynamique, comme si c'était ton site, et ça l'affiche quand google vient dessus (à la limite tu le mets en cache au premier passage).

Sinon, tu pourrais peut-être trier tes pages, dans 108 millions, il doit y avoir un paquet de déchet (en espérant que ce ne soit pas la majorité, mais tel n'est pas la question Wink)


Shocked

Générer un fichier de 50000 liens à la volé Question

Piouf ça me parrait supra hard, de quoi planter le serveur, le temps de génération de la page risque d'être trop long.
En fait je pensais plutôt utiliser un script php qui me génère le fichier sitemap en tant que fichier texte, donc une fois pour toute une peu comme le suggère chtipepere.
Je me demande même si sa solution ne sera pas la plus simple, il faudra que je bloque une machine le temps nécessaire pour crawler toutes les pages avec xenu par exemple, histoire que les logs apache reprennent toutes les pages nécessaire à chaque mise à jours.
 
johnny-57
chtipepere
WRInaute impliqué
WRInaute impliqué

Inscrit le: 08 Jan 2004
Messages: 467

URL permanente de ce messagePosté le : Mer Avr 09, 2008 8:12    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

Au vu du nombre de pages que tu as et celui que tu vas avoir, je pense sincèrement que le script de Google pourrait te convenir.
Effectivement, toutes les pages ne seront pas présentent d'un coup dans le sitemap, et en parallèle, Google n'aura pas crawlé toutes tes nouvelles pages en une journée. Les pages s'indexeront doucement dans le temps, ce qui je pense est pas plus mal pour ton référencement.
Car si tes pages possèdent un lien vers ta page d'accueil, ou pire, un petit groupe de liens optimisés pour les grandes villes de France, les pages que tu link vont se retrouver du jour au lendemain avec des centaines de millions de nouveaux liens, et à mon avis, ça va pas être super bien vu de la part de Google.
Et toujours avec le script, tu verras la montée en charge de la génération des sitemaps, ce qui te donnera le temps de chercher/trouver une autre solution si besoin est.

Edit : ah oui, et si tu dupliques tes pages existantes pour toutes les communes françaises, gare au duplicate content, car bien que le nom de la ville change, le contenu ne changera pas, et tes pages seront trop ressemblantes, et zou, déclassement, ou alors dans le bac à sable voire un blacklist... (je dis ça parce que j'ai essayé, et ça a pas plus...).
 
chtipepere Visiter le site web du posteur
cedric_g
WRInaute accro
WRInaute accro

Inscrit le: 18 Jan 2006
Messages: 1591
Localisation: Aube

URL permanente de ce messagePosté le : Mer Avr 09, 2008 8:20    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

Le genre de site qui se place avec très (trop) souvent de l'absence de contenu sur des thématiques, pour toutes les communes de France Twisted Evil Rolling Eyes

Genre "bowling chauffour les bailly" (mon village, où il n'y a même pas une boulangerie... en fait y'a rien)



Bref, le genre de site que j'adore Mad


Je me trompe peut-être mais 3000 activités dans mon bled (où y'a que 110 habitants et autant de vaches, et aucun commerce) ça me fait doucement sourire.
 
cedric_g Visiter le site web du posteur
Leonick
WRInaute accro
WRInaute accro

Inscrit le: 08 Aoû 2004
Messages: 9563
Localisation: Val de Marne

URL permanente de ce messagePosté le : Mer Avr 09, 2008 8:36    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

johnny-57 a écrit:
Un site qui propose un peu plus de 3000 sujets différentes fait une page de présentation personnalisé pour chaque activité pour chaque ville de France.
En clair, tu prends du contenu de wikipedia (pour expliquer ce qu'est un boucher, puis tu reproduis ce même contenu pour chacune des villes de France. Evil or Very Mad
c'est du mega MFA et gg améliore ses filtres pour les virer des 100 premières pages des SERP
cedric_g a écrit:
Le genre de site qui se place avec très (trop) souvent de l'absence de contenu sur des thématiques, pour toutes les communes de France Twisted Evil Rolling Eyes
+100
 
Leonick Visiter le site web du posteur
johnny-57
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 20 Avr 2007
Messages: 115

URL permanente de ce messagePosté le : Mer Avr 09, 2008 8:52    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

Oula on s'énerve pas lol, aucune copie de contenue existant, uniquement une amélioration du service existant en le personnalisant à chaque commune en fonction des disponibilités déclarés par les adhérents.
Donc aucune chance de se retrouver avec un sujet traiter sur la page de la ville qui n'est pas ensuite offert réellement au visiteur.
Biensurs la couverture des services évolue en plus ou en moins d'ou une variation dans les pages et que je ne veux pas gérer en manuel parce que trop de travail de suivi.

Juste un mot en passant pour Leonick :

Je te trouve super agressif, tu condamne un concept en l'accusant de choses que tu imagines pourquoi ?

Qui a dit que le site allait pomper des infos sur d'autres site pour les intégrer a ses pages ?

Tout le contenue sera original et créé par et pour le site.
Biensurs le contenue ne sera pas innovant, on ne va pas inventer le moteur à hyper propulsion et le présenter sur ses pages, mais on va présenté des services, utiles à tous en les intégrant à une page VILLE suivant les déclarations de compétences géographique faites par les adhérents.

Maintenant j'espère que ce post ne partira pas en HS, je ne pense pas qu'on soit là pour faire le procès de qui que ce soit mais pour parler de la possibilité de générer des sitemaps de très gros volume.
 
johnny-57
Suede
WRInaute accro
WRInaute accro

Inscrit le: 04 Oct 2002
Messages: 3671
Localisation: Suède

URL permanente de ce messagePosté le : Mer Avr 09, 2008 9:29    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

Bonjour
Tu generes un sitemap initial. Tu le fais en statique en le divisant (un site map qui lie à d'autres sitemaps).
Ensuite, tu generes un sitemap en fonction des nouvelles entrées.
Tu devrais pouvoir repérer quels sont les nouvelles pages crées depuis la création du dernier sitemap?
 
Suede Visiter le site web du posteur
e-kiwi
Modérateur
Modérateur

Inscrit le: 23 Déc 2003
Messages: 12859
Localisation: Toulouse

URL permanente de ce messagePosté le : Mer Avr 09, 2008 9:38    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

108 millions de pages ? aucun sens de faire un sitemap car jamais google t'indexera 108.000.000 de pages. tu dois te concentrer sur les 100enes de milliers maximum qu'il t'indexera (ou plus si tu bénéficie d'un PR8-9-10?) et ne pas soumettre des 108.000.000 d'url qui ne le seront pas et risque même de te faire perdre du potentiel sur tes pages principales
 
e-kiwi Visiter le site web du posteur
Leonick
WRInaute accro
WRInaute accro

Inscrit le: 08 Aoû 2004
Messages: 9563
Localisation: Val de Marne

URL permanente de ce messagePosté le : Mer Avr 09, 2008 10:10    Sujet du message: comment générer un sitemap de plus de 108 millions de pages

johnny-57 a écrit:
Je te trouve super agressif, tu condamne un concept en l'accusant de choses que tu imagines pourquoi ?
Maintenant j'espère que ce post ne partira pas en HS, je ne pense pas qu'on soit là pour faire le procès de qui que ce soit mais pour parler de la possibilité de générer des sitemaps de très gros volume.
en fait, gg procédera de la même façon : un site qui envoie, ne serait-ce qu'un sitemap de plusieurs centaines de milliers de pages, comme ça, d'un coup, ça va allumer un clignotant chez eux. Et, même si le contenu ne provient d'aucun autre site, mais retrouver la définition du métier de boulanger pour chaque ville de France, ça fait carrément duplicate content.
Ne pas oublier que ça a été (et ça continue encore) la méthode de prédilection de spam index d'un certain nombre de webagency pour propulser le site d'un serrurier, d'un électricien, ... sur toutes les villes d'une région.
Et en tant qu'internaute, si je cherche les coordonnées d'un garagiste, je n'ai pas envie de tomber sur un site qui m'indique que "le garagiste est un professionnel qui a comme tâche de réparer mon automobile", etc...
 
Leonick Visiter le site web du posteur
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Développement d'un site Web Toutes les heures sont au format GMT + 1 Heure
Page 1 sur 2 - Aller à la page 1, 2  Suivante
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort