Comment générer un sitemap de plus de 108 millions de pages

WRInaute occasionnel
Bon voilà mon problème,

Je doit générer un sitemap pour un total de plus de 108 millions de pages, oui toutes du même site ;)

On sait que google n'accepte que 50000 liens par sitemap, donc ça me fait plus de 2000 fichier sitemap à générer.

Mais mon problème c'est de savoir, comment le générer !?

Je vais pas mettre un logiciel à crawler tout ça, ça prendra des jours, en plus scinder les résultats par lots de 50000 ça va être la galère :cry:

Générer les sitemaps par un script php me parait également très lourd.

Vous auriez une solution ? parceque là je sèche :oops:
 
WRInaute occasionnel
Ben je pense que générer par un script php autant de fichier sitemap que nécessaire est la solution la plus logique.
Un logiciel planterais vite avec un volume pareil.
Mais j'ai un peu peur de la réaction du serveur quand je vais lui demander de générer un fichier de 50000 liens tiré de la base mysql ça risque de ramer grave non ?
 
WRInaute occasionnel
Perso, j'ai installé le script en Python fournit par Google sur mon dédié, et la génération de sitemap est un vrai plaisir car totalement automatisé :)
Il gère les indexs de sitemap, compresse les fichiers, ne mets que 50.000 liens par page, et se base sur les logs Apache pour connaître les pages à indexer et leur donne une importance selon la fréquence à laquelle elle sont appelées.
Un petit fichier XML, une petite tâche CRON, et zou, je m'en occupe plus.
Lorsque j'ai des alertes dans GWT quant à des erreurs dans mon sitemap, je sais que ça vient d'un problème sur le site, ça aussi c'est pratique.
 
WRInaute occasionnel
Mais si il se base sur les log apache pour générer le sitemap, il faudrait donc quand même lancer un logiciel genre xenu afin qu'il crawl toutes les pages pour qu'elles soient dans les logs apache et donc prise en compte par le script pour la génération du sitemap.
Et reste encore le problème de la charge serveur, quand le cron va commencer à générer plus de 2000 fichiers sitemap de 50000 liens chacun ça risque pas de faire souffrir le serveur ?
 
WRInaute passionné
Quoiqu'il arrive, il va bien falloir que tu les génères d'une manière ou d'une autre. Donc que ce soit d'une façon ou d'une autre, il faudra afficher 50 000 liens sur une page * 2000.

Personnellement, je ferai un truc dynamique, comme si c'était ton site, et ça l'affiche quand google vient dessus (à la limite tu le mets en cache au premier passage).

Sinon, tu pourrais peut-être trier tes pages, dans 108 millions, il doit y avoir un paquet de déchet (en espérant que ce ne soit pas la majorité, mais tel n'est pas la question ;))
 
WRInaute occasionnel
108 ... millions. Çà existe ? A moins que tu t'occupes de Wikipedia...ou de EBay...
 
WRInaute occasionnel
108 ... millions. Çà existe ? A moins que tu t'occupes de Wikipedia...ou de EBay...

En fait ça n'existe pas encore les 108 millions de pages mais ça va arriver d'ici à une dizaine de jour maximum. Le site fait actuellement prés de 400.000 pages et passera en une fois à 108 millions supplémentaires. Je me demande même quelle sera l'impact sur le référencement d'autant de page, est ce que google référencera mieux un site qui a plusieurs millions de page plutôt qu'un site qui n'en ai que quelques centaines de milliers, faudra que j'essaie de contrôler ça tien.

En fait, même si je peu pas trop en parler, le concept est simple.

Un site qui propose un peu plus de 3000 sujets différentes fait une page de présentation personnalisé pour chaque activité pour chaque ville de France.
Le calcul est vite fait : 3000 X 36000 communes = 108.000.000 de pages.
Une prévision d'ajout de 60 à 100 nouveau sujet par ville en moyenne et par mois et dors et déjà planifiée ce qui implique 2.160.000 à 3.600.000 nouvelles pages chaque mois.
Vous comprendrez qu'à ce rythme je n'ai aucune envie de le faire en manuel.

Quoiqu'il arrive, il va bien falloir que tu les génères d'une manière ou d'une autre. Donc que ce soit d'une façon ou d'une autre, il faudra afficher 50 000 liens sur une page * 2000.

Personnellement, je ferai un truc dynamique, comme si c'était ton site, et ça l'affiche quand google vient dessus (à la limite tu le mets en cache au premier passage).

Sinon, tu pourrais peut-être trier tes pages, dans 108 millions, il doit y avoir un paquet de déchet (en espérant que ce ne soit pas la majorité, mais tel n'est pas la question Wink)

8O

Générer un fichier de 50000 liens à la volé :?:

Piouf ça me parrait supra hard, de quoi planter le serveur, le temps de génération de la page risque d'être trop long.
En fait je pensais plutôt utiliser un script php qui me génère le fichier sitemap en tant que fichier texte, donc une fois pour toute une peu comme le suggère chtipepere.
Je me demande même si sa solution ne sera pas la plus simple, il faudra que je bloque une machine le temps nécessaire pour crawler toutes les pages avec xenu par exemple, histoire que les logs apache reprennent toutes les pages nécessaire à chaque mise à jours.
 
WRInaute occasionnel
Au vu du nombre de pages que tu as et celui que tu vas avoir, je pense sincèrement que le script de Google pourrait te convenir.
Effectivement, toutes les pages ne seront pas présentent d'un coup dans le sitemap, et en parallèle, Google n'aura pas crawlé toutes tes nouvelles pages en une journée. Les pages s'indexeront doucement dans le temps, ce qui je pense est pas plus mal pour ton référencement.
Car si tes pages possèdent un lien vers ta page d'accueil, ou pire, un petit groupe de liens optimisés pour les grandes villes de France, les pages que tu link vont se retrouver du jour au lendemain avec des centaines de millions de nouveaux liens, et à mon avis, ça va pas être super bien vu de la part de Google.
Et toujours avec le script, tu verras la montée en charge de la génération des sitemaps, ce qui te donnera le temps de chercher/trouver une autre solution si besoin est.

Edit : ah oui, et si tu dupliques tes pages existantes pour toutes les communes françaises, gare au duplicate content, car bien que le nom de la ville change, le contenu ne changera pas, et tes pages seront trop ressemblantes, et zou, déclassement, ou alors dans le bac à sable voire un blacklist... (je dis ça parce que j'ai essayé, et ça a pas plus...).
 
WRInaute accro
Le genre de site qui se place avec très (trop) souvent de l'absence de contenu sur des thématiques, pour toutes les communes de France :twisted: :roll:

Genre "bowling chauffour les bailly" (mon village, où il n'y a même pas une boulangerie... en fait y'a rien)



Bref, le genre de site que j'adore :x


Je me trompe peut-être mais 3000 activités dans mon bled (où y'a que 110 habitants et autant de vaches, et aucun commerce) ça me fait doucement sourire.
 
WRInaute accro
johnny-57 a dit:
Un site qui propose un peu plus de 3000 sujets différentes fait une page de présentation personnalisé pour chaque activité pour chaque ville de France.
En clair, tu prends du contenu de wikipedia (pour expliquer ce qu'est un boucher, puis tu reproduis ce même contenu pour chacune des villes de France. :evil:
c'est du mega MFA et gg améliore ses filtres pour les virer des 100 premières pages des SERP
cedric_g a dit:
Le genre de site qui se place avec très (trop) souvent de l'absence de contenu sur des thématiques, pour toutes les communes de France :twisted: :roll:
+100
 
WRInaute occasionnel
Oula on s'énerve pas lol, aucune copie de contenue existant, uniquement une amélioration du service existant en le personnalisant à chaque commune en fonction des disponibilités déclarés par les adhérents.
Donc aucune chance de se retrouver avec un sujet traiter sur la page de la ville qui n'est pas ensuite offert réellement au visiteur.
Biensurs la couverture des services évolue en plus ou en moins d'ou une variation dans les pages et que je ne veux pas gérer en manuel parce que trop de travail de suivi.

Juste un mot en passant pour Leonick :

Je te trouve super agressif, tu condamne un concept en l'accusant de choses que tu imagines pourquoi ?

Qui a dit que le site allait pomper des infos sur d'autres site pour les intégrer a ses pages ?

Tout le contenue sera original et créé par et pour le site.
Biensurs le contenue ne sera pas innovant, on ne va pas inventer le moteur à hyper propulsion et le présenter sur ses pages, mais on va présenté des services, utiles à tous en les intégrant à une page VILLE suivant les déclarations de compétences géographique faites par les adhérents.

Maintenant j'espère que ce post ne partira pas en HS, je ne pense pas qu'on soit là pour faire le procès de qui que ce soit mais pour parler de la possibilité de générer des sitemaps de très gros volume.
 
WRInaute passionné
Bonjour
Tu generes un sitemap initial. Tu le fais en statique en le divisant (un site map qui lie à d'autres sitemaps).
Ensuite, tu generes un sitemap en fonction des nouvelles entrées.
Tu devrais pouvoir repérer quels sont les nouvelles pages crées depuis la création du dernier sitemap?
 
WRInaute accro
108 millions de pages ? aucun sens de faire un sitemap car jamais google t'indexera 108.000.000 de pages. tu dois te concentrer sur les 100enes de milliers maximum qu'il t'indexera (ou plus si tu bénéficie d'un PR8-9-10?) et ne pas soumettre des 108.000.000 d'url qui ne le seront pas et risque même de te faire perdre du potentiel sur tes pages principales
 
WRInaute accro
johnny-57 a dit:
Je te trouve super agressif, tu condamne un concept en l'accusant de choses que tu imagines pourquoi ?
Maintenant j'espère que ce post ne partira pas en HS, je ne pense pas qu'on soit là pour faire le procès de qui que ce soit mais pour parler de la possibilité de générer des sitemaps de très gros volume.
en fait, gg procédera de la même façon : un site qui envoie, ne serait-ce qu'un sitemap de plusieurs centaines de milliers de pages, comme ça, d'un coup, ça va allumer un clignotant chez eux. Et, même si le contenu ne provient d'aucun autre site, mais retrouver la définition du métier de boulanger pour chaque ville de France, ça fait carrément duplicate content.
Ne pas oublier que ça a été (et ça continue encore) la méthode de prédilection de spam index d'un certain nombre de webagency pour propulser le site d'un serrurier, d'un électricien, ... sur toutes les villes d'une région.
Et en tant qu'internaute, si je cherche les coordonnées d'un garagiste, je n'ai pas envie de tomber sur un site qui m'indique que "le garagiste est un professionnel qui a comme tâche de réparer mon automobile", etc...
 
Nouveau WRInaute
johnny-57 a dit:
Un site qui propose un peu plus de 3000 sujets différentes fait une page de présentation personnalisé pour chaque activité pour chaque ville de France.
Le calcul est vite fait : 3000 X 36000 communes = 108.000.000 de pages.
Tu donnes la solution en posant la question :
tu n'indexes qu'une page de référence par commune avec dedans des liens inclus vers les éventuels sujets traités (qui ne seront vraisemblablement pas à 3000 pour chaque page loin de la). Eventuellement la même chose pour les 3000 sujets mais ca me parait moins pertinent.
Ca suffira pour le référencement et évitera 'trop de duplicate content' ;)
 
WRInaute discret
Euh moi je dis cela comme ça - Mais déjà pourquoi ne pas regrouper plusieurs activité pas commune (ex commune de 100 hab).

Parceque perso si c'est pour tomber sur une page type concours de coinche tous les samedi après midi au café des lilas à tataouine les bains sans rien d'autre. J'ai pas besoin du web pour cela. J'exagère ... mais l'esprit est là.
 
WRInaute accro
Sans compter que l'internaute n'est pas non plus idiot : l'habitant de mon village SAIT qu'il n'y a PAS de garagiste dans la commune. Ce qu'il va rechercher, c'est "garagiste aube" ou au pire, "garagiste <nom du canton>"

À vouloir trop en faire... Ce genre de site "base de données de communes" m'horripile car quand on cherche des infos sur certains petits villages intéressants sur tel ou tel théme (histoire, patrimoine culturel ou naturaliste), ils viennent pourrir les SERP car très souvent suroptimisés, en n'apportant RIEN en matière de contenu :roll:


Certains sites de petites annonces utilisent aussi ce genre d'ânerie pour se placer à tout va et créer ainsi des centaines de milliers de pages inutiles...
 
WRInaute accro
ArcsaM a dit:
Parceque perso si c'est pour tomber sur une page type concours de coinche tous les samedi après midi au café des lilas à tataouine les bains sans rien d'autre. J'ai pas besoin du web pour cela. J'exagère ... mais l'esprit est là.
mais en général, tu n'as même pas ce type d'info, tu as juste un croisement entre un fichier de métier et et des villes.
Certains font aussi ça sur des sites de demandes de devis, où l'on ne trouve que des formulaires de saisie avec juste le nom de la ville (et le cp) de différents entre 2 pages
 
WRInaute occasionnel
Leonick a dit:
ArcsaM a dit:
Parceque perso si c'est pour tomber sur une page type concours de coinche tous les samedi après midi au café des lilas à tataouine les bains sans rien d'autre. J'ai pas besoin du web pour cela. J'exagère ... mais l'esprit est là.
mais en général, tu n'as même pas ce type d'info, tu as juste un croisement entre un fichier de métier et et des villes.
Certains font aussi ça sur des sites de demandes de devis, où l'on ne trouve que des formulaires de saisie avec juste le nom de la ville (et le cp) de différents entre 2 pages

ça me fait penser à un site dans le genre qui a des pages comme ça, j'en ai déjà vu plusieurs fois en faisant de la veille concurrentiel sur certaine requête.

Alors du coup je viens de faire une recherche voilà le résultat :

-http://www.quotatis.com/meuble-cuisine-60600-clermont-gratuit-entreprises.html
-http://www.quotatis.com/meuble-cuisine-60870-villers-st-paul-gratuit-metier.html

2 pages presque similaire et pourtant indéxé par gg sans problème de duplicate content.

Mais pour parler d'étique en matière de référencement.
Quel est le mal pour ce site de faire ce genre de chose, les pages permettent aux visiteurs de trouver un pro dans ce métier qui sera capable d'intervenir sur cette ville.
L'internaute trouve ce qu'il cherchais donc ou est le mal ?
 
WRInaute accro
johnny-57 a dit:
Mais pour parler d'étique en matière de référencement.
Quel est le mal pour ce site de faire ce genre de chose, les pages permettent aux visiteurs de trouver un pro dans ce métier qui sera capable d'intervenir sur cette ville.
L'internaute trouve ce qu'il cherchais donc ou est le mal ?
non, l'internaute ne trouve pas ce qu'il cherche, car ce site n'est qu'une interface qui va renvoyer des demandes de devis à des professionnels, s'il les trouve. Car pour s'affilier à de telles pltaeformes, il faut que le professionnel paie.
Donc en fait, l'internaute ne va pas trouver l'info qu'il veut. Si je veux savoir très rapidement si ma demande est possible, puis-je avoir un numéro de tél ? non, bien sur :twisted:
En plus, son forcing ne fonctionne plus si bien que ça, comme je l'indiquais, car sur la recherche https://www.google.fr/search?q=meuble+cu ... rs+st-paul il n'apparait que sur la page 2, avec seulement 600 résultats.
Mais les 1° places sont encore phagocytées par kizizi et vivalarue, avec tous leurs sous-domaines
google a dit:
Ne créez pas plusieurs pages, sous-domaines ou domaines présentant un contenu en grande partie identique.
Limitez les contenus similaires : si de nombreuses pages de votre site sont similaires, développez chacune d'entre elles afin de les rendre uniques ou consolidez-les en une seule. Par exemple, si votre site de voyages présente des pages distinctes pour deux villes, mais que celles-ci comportent des informations identiques, regroupez les informations sur les deux villes sur une seule page ou développez chaque page afin qu'elles contiennent des informations bien différentes.
donc après, cela ne servira à rien de revenir sur WRI en disant "je ne comprends pas, je suis sandboxé, sans savoir pourquoi"
 
WRInaute occasionnel
Erreur ils sont premier sur la requette sur 4XXX résultat

https://www.google.fr/search?hl=fr&rlz=1 ... cher&meta=
la requete c'est mobilier pas meuble, mais bref.

En fait on se mort la queue, parceque d'un coté on a des pro qui risquent de dirent dsl je ne m'inscris pas vous avez de toutes façon pas de demandes et de l'autre on dit ben non, ne faite rien pour vous positionner vous avez de toute façon personne qui va répondre sur ce métier dans cette ville ou est le bon du mauvais alors ?
 
WRInaute accro
johnny-57 a dit:
En fait on se mort la queue, parceque d'un coté on a des pro qui risquent de dirent dsl je ne m'inscris pas vous avez de toutes façon pas de demandes et de l'autre on dit ben non, ne faite rien pour vous positionner vous avez de toute façon personne qui va répondre sur ce métier dans cette ville ou est le bon du mauvais alors ?
de toutes façons, si tu dois te positionner sur de telles requêtes, contre des sites comme ça, tu as 2 possibilités : soit tu devient producteur de spam en jouant le même jeu que eux, en n'oubliant pas que du jour au lendemain tu peux te retrouver sandoxé ou blacklisté, soit tu restes clean en pensant à ce que tu aimerais trouver dans les résultats de gg, si tu n'étais pas webmaster et tu deviens utilisateur du spam report. Perso, je préfère la 2° solution et en plus ça marche assez fréquemment, il suffit d'être connecté sur son interface gg webmaster tools
 
WRInaute occasionnel
Je ne parle pas des méthodes, je parle de la finalité, être positionné sur des requetes ou ils n'ont peut être personne à un instant T comme tu parlais dans ton précédent message.
Maintenant je suis pas certain que gg blacklist un site parce qu'il a des pages trop similaire si ?
 
WRInaute accro
johnny-57 a dit:
Je ne parle pas des méthodes, je parle de la finalité, être positionné sur des requetes ou ils n'ont peut être personne à un instant T comme tu parlais dans ton précédent message.
oui, mais la finalité, il faut aussi penser au visiteur. Si tu arrives sur un tel site, vas-tu remplir la demande de devis ou bien retourner sur google regarder un autre site ou bien effectuer une autre recherche ?
Donc après, tu vas te demander si ça vaut le coup de récupérer un visiteur qui va s'en aller aussitôt et de risquer de te retrouver pénalisé par google quand ses algo auront encore été affinés
johnny-57 a dit:
Maintenant je suis pas certain que gg blacklist un site parce qu'il a des pages trop similaire si ?
non, pour mes quelques essais, il ne fait que sandboxer, c'est à dire que si tu as 2000 pages avec juste la ville et le cp qui change, voire un ou 2 autres mots, il ne va garder qu'une seule des pages.
 
WRInaute passionné
Re:

e-kiwi a dit:
108 millions de pages ? aucun sens de faire un sitemap car jamais google t'indexera 108.000.000 de pages. tu dois te concentrer sur les 100enes de milliers maximum qu'il t'indexera (ou plus si tu bénéficie d'un PR8-9-10?) et ne pas soumettre des 108.000.000 d'url qui ne le seront pas et risque même de te faire perdre du potentiel sur tes pages principales


108.000 k pages , GG va pas etre au courant du tout ...
si ça lui plais pas :/ ça va sonner dur a mon avis, encore+ si tu le fait dans leur dos

Le top serait de se mettre en relation avec GG et lui demander au minimum des autorisations et conseils
Si ton projet peut espérer rentrer dans les index
si il est d'accord de bien vouloir prendre en compte toutes les pages
Si c non tu es au moins sur d'une chose c'est que sera non, et un non fixe.
Et tu ne perdra pas ton temp a espérer indexer tes pages.

Si c'est oui tu va devoir certainement devoir avancer des garanties chez GG
et pas mal de choses a expliquer

Si c'est oui bin bonne chance !
 
Nouveau WRInaute
Bonjour, j'ai un site de quelques milliers d'url, j'ai essayé Xenu et différents outils qui finissent tous par planter au bout de quelques jours e crawl.
Je n'ai pas la possibilité d'installer le script en python.
Avez-vous une idée (voire payante) pour générer un sitemap ?
 
Discussions similaires
Haut