| |
|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
johnny-57 WRInaute occasionnel

Inscrit le: 20 Avr 2007 Messages: 115
|
Posté le : Mar Avr 08, 2008 22:31 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
Bon voilà mon problème,
Je doit générer un sitemap pour un total de plus de 108 millions de pages, oui toutes du même site
On sait que google n'accepte que 50000 liens par sitemap, donc ça me fait plus de 2000 fichier sitemap à générer.
Mais mon problème c'est de savoir, comment le générer !?
Je vais pas mettre un logiciel à crawler tout ça, ça prendra des jours, en plus scinder les résultats par lots de 50000 ça va être la galère
Générer les sitemaps par un script php me parait également très lourd.
Vous auriez une solution ? parceque là je sèche  |
|
| |
|
 |
UsagiYojimbo WRInaute accro

Inscrit le: 23 Nov 2005 Messages: 2752 Localisation: Lyon, capitale des Gaules
|
Posté le : Mar Avr 08, 2008 22:51 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
Perso je soumettrais dynamiquement à Google un index de sitemap en php qui se chargerait de me générer des fichiers sitemap à raison d'un seuil de 50 000 liens par fichier :
https://www.google.com/webmasters/tools/docs/en/protocol.html |
|
| |
|
 |
johnny-57 WRInaute occasionnel

Inscrit le: 20 Avr 2007 Messages: 115
|
Posté le : Mar Avr 08, 2008 23:00 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
Ben je pense que générer par un script php autant de fichier sitemap que nécessaire est la solution la plus logique.
Un logiciel planterais vite avec un volume pareil.
Mais j'ai un peu peur de la réaction du serveur quand je vais lui demander de générer un fichier de 50000 liens tiré de la base mysql ça risque de ramer grave non ? |
|
| |
|
 |
chtipepere WRInaute impliqué

Inscrit le: 08 Jan 2004 Messages: 467
|
Posté le : Mar Avr 08, 2008 23:02 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
Perso, j'ai installé le script en Python fournit par Google sur mon dédié, et la génération de sitemap est un vrai plaisir car totalement automatisé
Il gère les indexs de sitemap, compresse les fichiers, ne mets que 50.000 liens par page, et se base sur les logs Apache pour connaître les pages à indexer et leur donne une importance selon la fréquence à laquelle elle sont appelées.
Un petit fichier XML, une petite tâche CRON, et zou, je m'en occupe plus.
Lorsque j'ai des alertes dans GWT quant à des erreurs dans mon sitemap, je sais que ça vient d'un problème sur le site, ça aussi c'est pratique. |
|
| |
|
 |
johnny-57 WRInaute occasionnel

Inscrit le: 20 Avr 2007 Messages: 115
|
Posté le : Mar Avr 08, 2008 23:11 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
Mais si il se base sur les log apache pour générer le sitemap, il faudrait donc quand même lancer un logiciel genre xenu afin qu'il crawl toutes les pages pour qu'elles soient dans les logs apache et donc prise en compte par le script pour la génération du sitemap.
Et reste encore le problème de la charge serveur, quand le cron va commencer à générer plus de 2000 fichiers sitemap de 50000 liens chacun ça risque pas de faire souffrir le serveur ? |
|
| |
|
 |
tonguide WRInaute accro

Inscrit le: 28 Nov 2003 Messages: 1152
|
Posté le : Mer Avr 09, 2008 1:09 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
Quoiqu'il arrive, il va bien falloir que tu les génères d'une manière ou d'une autre. Donc que ce soit d'une façon ou d'une autre, il faudra afficher 50 000 liens sur une page * 2000.
Personnellement, je ferai un truc dynamique, comme si c'était ton site, et ça l'affiche quand google vient dessus (à la limite tu le mets en cache au premier passage).
Sinon, tu pourrais peut-être trier tes pages, dans 108 millions, il doit y avoir un paquet de déchet (en espérant que ce ne soit pas la majorité, mais tel n'est pas la question ) |
|
| |
|
 |
Hoho WRInaute passionné

Inscrit le: 10 Jan 2006 Messages: 514
|
Posté le : Mer Avr 09, 2008 2:44 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
| 108 ... millions. Çà existe ? A moins que tu t'occupes de Wikipedia...ou de EBay... |
|
| |
|
 |
johnny-57 WRInaute occasionnel

Inscrit le: 20 Avr 2007 Messages: 115
|
Posté le : Mer Avr 09, 2008 6:17 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
| Citation: |
108 ... millions. Çà existe ? A moins que tu t'occupes de Wikipedia...ou de EBay...
|
En fait ça n'existe pas encore les 108 millions de pages mais ça va arriver d'ici à une dizaine de jour maximum. Le site fait actuellement prés de 400.000 pages et passera en une fois à 108 millions supplémentaires. Je me demande même quelle sera l'impact sur le référencement d'autant de page, est ce que google référencera mieux un site qui a plusieurs millions de page plutôt qu'un site qui n'en ai que quelques centaines de milliers, faudra que j'essaie de contrôler ça tien.
En fait, même si je peu pas trop en parler, le concept est simple.
Un site qui propose un peu plus de 3000 sujets différentes fait une page de présentation personnalisé pour chaque activité pour chaque ville de France.
Le calcul est vite fait : 3000 X 36000 communes = 108.000.000 de pages.
Une prévision d'ajout de 60 à 100 nouveau sujet par ville en moyenne et par mois et dors et déjà planifiée ce qui implique 2.160.000 à 3.600.000 nouvelles pages chaque mois.
Vous comprendrez qu'à ce rythme je n'ai aucune envie de le faire en manuel.
| Citation: |
Quoiqu'il arrive, il va bien falloir que tu les génères d'une manière ou d'une autre. Donc que ce soit d'une façon ou d'une autre, il faudra afficher 50 000 liens sur une page * 2000.
Personnellement, je ferai un truc dynamique, comme si c'était ton site, et ça l'affiche quand google vient dessus (à la limite tu le mets en cache au premier passage).
Sinon, tu pourrais peut-être trier tes pages, dans 108 millions, il doit y avoir un paquet de déchet (en espérant que ce ne soit pas la majorité, mais tel n'est pas la question Wink)
|
Générer un fichier de 50000 liens à la volé
Piouf ça me parrait supra hard, de quoi planter le serveur, le temps de génération de la page risque d'être trop long.
En fait je pensais plutôt utiliser un script php qui me génère le fichier sitemap en tant que fichier texte, donc une fois pour toute une peu comme le suggère chtipepere.
Je me demande même si sa solution ne sera pas la plus simple, il faudra que je bloque une machine le temps nécessaire pour crawler toutes les pages avec xenu par exemple, histoire que les logs apache reprennent toutes les pages nécessaire à chaque mise à jours. |
|
| |
|
 |
chtipepere WRInaute impliqué

Inscrit le: 08 Jan 2004 Messages: 467
|
Posté le : Mer Avr 09, 2008 8:12 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
Au vu du nombre de pages que tu as et celui que tu vas avoir, je pense sincèrement que le script de Google pourrait te convenir.
Effectivement, toutes les pages ne seront pas présentent d'un coup dans le sitemap, et en parallèle, Google n'aura pas crawlé toutes tes nouvelles pages en une journée. Les pages s'indexeront doucement dans le temps, ce qui je pense est pas plus mal pour ton référencement.
Car si tes pages possèdent un lien vers ta page d'accueil, ou pire, un petit groupe de liens optimisés pour les grandes villes de France, les pages que tu link vont se retrouver du jour au lendemain avec des centaines de millions de nouveaux liens, et à mon avis, ça va pas être super bien vu de la part de Google.
Et toujours avec le script, tu verras la montée en charge de la génération des sitemaps, ce qui te donnera le temps de chercher/trouver une autre solution si besoin est.
Edit : ah oui, et si tu dupliques tes pages existantes pour toutes les communes françaises, gare au duplicate content, car bien que le nom de la ville change, le contenu ne changera pas, et tes pages seront trop ressemblantes, et zou, déclassement, ou alors dans le bac à sable voire un blacklist... (je dis ça parce que j'ai essayé, et ça a pas plus...). |
|
| |
|
 |
cedric_g WRInaute accro

Inscrit le: 18 Jan 2006 Messages: 1591 Localisation: Aube
|
Posté le : Mer Avr 09, 2008 8:20 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
Le genre de site qui se place avec très (trop) souvent de l'absence de contenu sur des thématiques, pour toutes les communes de France
Genre "bowling chauffour les bailly" (mon village, où il n'y a même pas une boulangerie... en fait y'a rien)
Bref, le genre de site que j'adore
Je me trompe peut-être mais 3000 activités dans mon bled (où y'a que 110 habitants et autant de vaches, et aucun commerce) ça me fait doucement sourire. |
|
| |
|
 |
Leonick WRInaute accro

Inscrit le: 08 Aoû 2004 Messages: 9563 Localisation: Val de Marne
|
Posté le : Mer Avr 09, 2008 8:36 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
| johnny-57 a écrit: |
| Un site qui propose un peu plus de 3000 sujets différentes fait une page de présentation personnalisé pour chaque activité pour chaque ville de France. |
En clair, tu prends du contenu de wikipedia (pour expliquer ce qu'est un boucher, puis tu reproduis ce même contenu pour chacune des villes de France.
c'est du mega MFA et gg améliore ses filtres pour les virer des 100 premières pages des SERP
| cedric_g a écrit: |
Le genre de site qui se place avec très (trop) souvent de l'absence de contenu sur des thématiques, pour toutes les communes de France  |
+100 |
|
| |
|
 |
johnny-57 WRInaute occasionnel

Inscrit le: 20 Avr 2007 Messages: 115
|
Posté le : Mer Avr 09, 2008 8:52 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
Oula on s'énerve pas lol, aucune copie de contenue existant, uniquement une amélioration du service existant en le personnalisant à chaque commune en fonction des disponibilités déclarés par les adhérents.
Donc aucune chance de se retrouver avec un sujet traiter sur la page de la ville qui n'est pas ensuite offert réellement au visiteur.
Biensurs la couverture des services évolue en plus ou en moins d'ou une variation dans les pages et que je ne veux pas gérer en manuel parce que trop de travail de suivi.
Juste un mot en passant pour Leonick :
Je te trouve super agressif, tu condamne un concept en l'accusant de choses que tu imagines pourquoi ?
Qui a dit que le site allait pomper des infos sur d'autres site pour les intégrer a ses pages ?
Tout le contenue sera original et créé par et pour le site.
Biensurs le contenue ne sera pas innovant, on ne va pas inventer le moteur à hyper propulsion et le présenter sur ses pages, mais on va présenté des services, utiles à tous en les intégrant à une page VILLE suivant les déclarations de compétences géographique faites par les adhérents.
Maintenant j'espère que ce post ne partira pas en HS, je ne pense pas qu'on soit là pour faire le procès de qui que ce soit mais pour parler de la possibilité de générer des sitemaps de très gros volume. |
|
| |
|
 |
Suede WRInaute accro

Inscrit le: 04 Oct 2002 Messages: 3671 Localisation: Suède
|
Posté le : Mer Avr 09, 2008 9:29 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
Bonjour
Tu generes un sitemap initial. Tu le fais en statique en le divisant (un site map qui lie à d'autres sitemaps).
Ensuite, tu generes un sitemap en fonction des nouvelles entrées.
Tu devrais pouvoir repérer quels sont les nouvelles pages crées depuis la création du dernier sitemap? |
|
| |
|
 |
e-kiwi Modérateur

Inscrit le: 23 Déc 2003 Messages: 12859 Localisation: Toulouse
|
Posté le : Mer Avr 09, 2008 9:38 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
| 108 millions de pages ? aucun sens de faire un sitemap car jamais google t'indexera 108.000.000 de pages. tu dois te concentrer sur les 100enes de milliers maximum qu'il t'indexera (ou plus si tu bénéficie d'un PR8-9-10?) et ne pas soumettre des 108.000.000 d'url qui ne le seront pas et risque même de te faire perdre du potentiel sur tes pages principales |
|
| |
|
 |
Leonick WRInaute accro

Inscrit le: 08 Aoû 2004 Messages: 9563 Localisation: Val de Marne
|
Posté le : Mer Avr 09, 2008 10:10 Sujet du message: comment générer un sitemap de plus de 108 millions de pages |
|
|
| johnny-57 a écrit: |
Je te trouve super agressif, tu condamne un concept en l'accusant de choses que tu imagines pourquoi ?
Maintenant j'espère que ce post ne partira pas en HS, je ne pense pas qu'on soit là pour faire le procès de qui que ce soit mais pour parler de la possibilité de générer des sitemaps de très gros volume. |
en fait, gg procédera de la même façon : un site qui envoie, ne serait-ce qu'un sitemap de plusieurs centaines de milliers de pages, comme ça, d'un coup, ça va allumer un clignotant chez eux. Et, même si le contenu ne provient d'aucun autre site, mais retrouver la définition du métier de boulanger pour chaque ville de France, ça fait carrément duplicate content.
Ne pas oublier que ça a été (et ça continue encore) la méthode de prédilection de spam index d'un certain nombre de webagency pour propulser le site d'un serrurier, d'un électricien, ... sur toutes les villes d'une région.
Et en tant qu'internaute, si je cherche les coordonnées d'un garagiste, je n'ai pas envie de tomber sur un site qui m'indique que "le garagiste est un professionnel qui a comme tâche de réparer mon automobile", etc... |
|
| |
|
 |
| |
|
|
|
|
Autres sujets de discussion :
|
|