1. Pour Black Friday on FRACASSE les prix ⚡ avec RM Tech Découverte
    Rejeter la notice

Comment indexer 1 milliard de pages ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par lusitain, 15 Octobre 2013.

  1. lusitain
    lusitain Nouveau WRInaute
    Inscrit:
    5 Janvier 2013
    Messages:
    12
    J'aime reçus:
    0
    Bonjour à tous, que le référencement soit avec vous !

    Voila, je suis confronté à un gros soucis, mon site contient plus d'un milliard de pages (1 milliard et 225 millions), et je ne sais comment les indexer. Le site c'est www.1001moteurs.com : il y a 35000 fiches de véhicules avec lesquelles on peut faire des battles avec un autre véhicule, soit 35000 x35000 ... et comme chaque battle est potentiellement intéressante, j'aimerais les indexer.

    Pire, ce chiffre concerne chaque langue, et il est traduit en 6 langues, soit plus de 7 milliards de pages !!!

    Déjà elles ne sont pas toutes "linkées" en interne (si vous avez une idée je suis prenneur). Mais si elles sont linkées, google les indexera forcément ?
    Quid du sitemap?

    Merci d'avance pour votre précieuse aide.
     
  2. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 098
    J'aime reçus:
    301
    Battle Lada Samara vs Porsche Carrera 911 ... intérêt ?
     
  3. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 829
    J'aime reçus:
    158
    Attention, il y a quelques temps de cela, plus on avait de pages indexées et plus on pouvait bénéficier de longue traine.
    Mais dorénavant, il faut s'assurer que chacune de ces pages est réellement un contenu unique sans quoi cela risque fortement de vous plomber !
    Car 1 milliard indexées ne veut pas dire 1 milliard dans les serps !

    Le rapport est vite fait...
    Si vous avez uniquement 100 pages qui tournent dans les serps sur les 1 milliards, je vous laisse faire la conversion !
    Ce serait + de la tentative de spam et en définitif, google pensera que vous proposez que peu de contenu intéressant !
    C'est AMHA :)
     
  4. kmenslow
    kmenslow WRInaute passionné
    Inscrit:
    7 Août 2006
    Messages:
    1 871
    J'aime reçus:
    0
    Bonjour,

    Aucune idée sur la réponse à ta question mais si tu arrives à indexer tout cela, tu vas gagner le trophée du plus gros DC interne :D
     
  5. lusitain
    lusitain Nouveau WRInaute
    Inscrit:
    5 Janvier 2013
    Messages:
    12
    J'aime reçus:
    0

    Cela peut paraître une battle sans aucun intérêt, mais dans mes stats j'ai des battles de ce genre que les visiteurs réalisent. Citroen 2 cv contre Ferrari etc... Sûrement pour l'humour, le contraste des chiffres ou un espoir. Des comparaisons insolites, certes, mais tout de même recherchées justement pour leur côté insolite.

    Moi même j'ai déja cherché à comparer les performances de mon véhicule (une Golf 3) avec ceux d'une Buggati veyron... Histoire de voir si je lui arrivais au moins à la cheville (espoir... :)... Et c'est justement dans ce type de recherches sur google que j'ai aussi envie d'apparaitre..
     
  6. lusitain
    lusitain Nouveau WRInaute
    Inscrit:
    5 Janvier 2013
    Messages:
    12
    J'aime reçus:
    0
    Google webmaster tools indique avoir indéxé 1 million de pages, et ça stagne depuis un moment.
    Je ne suis pas un spammeur, les battles sont intéressantes car recherchées et chaque page est unique. Que me conseillez-vous?

    Je garde dans ma base les traces de chaque battle réalisée, et leur nombre. J'en suis à 7 millions de battles différentes réalisées, et ce chiffre grandit à vue d'oeil. Je pourrais peut être indexer dynamiquement ces battles : mais il est préférable de les "linker" en interne ou de les "sitemaper"?
     
  7. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 829
    J'aime reçus:
    158
    Par contre, bravo, ça dû être un sacré boulot pour récupérer autant d'info sur les perfs de chacune de ses voitures jusqu'au stats des reprises !

    Bravo :)
     
  8. longo600
    longo600 WRInaute passionné
    Inscrit:
    24 Février 2005
    Messages:
    2 209
    J'aime reçus:
    7
    Les linker, tu peux tenter sur des pages NOINDEX,FOLLOW, c'est ce que font les gros annuaires. De toute manière, il faut un minimum de lien , au moins 1... je suppose, mais pas certain.

    Laisse Google décider ... et fait des sites maps, j'en ai 100 pour 4,5 millions de pages, tu es aura 200 voilà tout.

    Si tu vois que ton ref est en chute, tu n'aura plus qu'a mettre du noindex sur ces pages X vs Y. Petit risque, a toi de voir, mais pas non plus de blacklistage.
     
  9. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 906
    J'aime reçus:
    14
    Peut être mais cela ne signifie pas forcément qu'il y a un intérêt a ce que ces pages soient référencées et qu'elles apparaissent dans les serps.

    Rien n’empêchera quand des visiteurs seront sur ton site d'accéder à ces battle., Mais très sincèrement je déconseillerais également de référencer toutes ces pages au contenu bien trop similaire et pour un résultats qui ne sera pas forcément positif en terme de référencement.

    cela vaut-il vraiment la peine de prendre un tel risque?
     
  10. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 829
    J'aime reçus:
    158
    Surtout ces derniers temps !
    Vaut mieux serrés les fesses et attendent que ça se stabilise :lol:

    Ou par exemple, accepter l'indexation à condition que tu aies eu au moins 20 ou 30 fois cette même battle (à toi de voir).
    ça justifie l'indexation puisqu'un certain taux de personnes l'ont testé donc il y a potentiellement une recherche dessus.
     
  11. lusitain
    lusitain Nouveau WRInaute
    Inscrit:
    5 Janvier 2013
    Messages:
    12
    J'aime reçus:
    0
    Merci pour vos réponses, ça fait plaisir de vois une communauté aussi active et professionnelle.

    Ok, apparemment ce serait la solution la plus judicieuse. Je ne vais donc "linker" que les battles les plus fréquentes.
    Me conseilles-tu aussi de les "sitemaper"?
     
  12. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 906
    J'aime reçus:
    14
    si ton site est bien construit la sitemap me semble pas indispensable.

    Tiens nous au courant, et dis nous combien ça te fait de pages référencées une fois le tri effectué :mrgreen:
     
  13. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 891
    J'aime reçus:
    8
    Slt,

    Tout d'abord, tu te gourre un peu dans le nb de page total.

    Avec 35000 voiture, tu n'as que +612 millions de pages. ;-)
    On ne fait pas 35000x35000, mais :
    ([34999x(35000+1)]/2)-1 = 612 482 499.

    Unique, c'est vite dit si tu calcul le ration texte spécifique aux véhicule et texte générique.
    Et dans tous les cas un contenu extrêmement pauvre.

    A ton avis, comment GG va considérer cela ?
     
  14. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 829
    J'aime reçus:
    158
    j'imagine que tu y as pensé mais attention au doublon :
    - 1 page : golf III => porsche 911 ou porsche 911 => golf III
    Pour éviter le DC, tu dois te contenter de différencier le modèle générique genre GOLF > PORSCHE 911 parce que si tu déclines golf I ou II ou III, GTI ou GTD, etc... là, c'est clair, tu es le parfait candidat pour google car trop de similitude!
     
  15. lusitain
    lusitain Nouveau WRInaute
    Inscrit:
    5 Janvier 2013
    Messages:
    12
    J'aime reçus:
    0
    golf III => porsche 911 ou porsche 911 => golf III, ce ne sera qu'une seule et unique page, j'ai bien fait attention à cela.
    Chaque modèle est différencié, car chaque modèle à des caractéristiques techniques ou performances différentes.
     
  16. lusitain
    lusitain Nouveau WRInaute
    Inscrit:
    5 Janvier 2013
    Messages:
    12
    J'aime reçus:
    0
    Les différences entre les pages ne sont que des différences de chiffres, et peu de texte, mais sont tout de même uniques.
    Ce sont des données techniques et de performance, riches pour le visiteur. C'est difficile à admettre que pour google le contenu peut paraître pauvre. Je te l'accorde.

    Je prends ta réponse comme une critique constructive. Pour l'émettre j'imagine que tu as une solution.
    Impatiemment...
     
  17. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 891
    J'aime reçus:
    8
    Voilà la phrase qu'il faut retenir.
    Ce qui est "bon" pour le visiteur ne l'est pas obligatoirement our GG.

    Tu as ton test bien mis en avant. Les visiteurs vont s'amuser avec.
    Ce système est du même principe que la recherche par tag, inutile a être indexé et pourtant très utile au visiteur.

    Ma solution elle est simple.
    meta no index sur toutes tes "battle".
    Création de page unique et de qualité pour présenter des exemples de battle souvent demandés dans les SERP.
    Ces pages devront comporter un contenu fournis (description du véhicule, historique, video, etc...) et non juste des chiffres.
    Ce sont elles qui devront être indexer pour t’amener des internaute qui aimes ce genre d'outil.

    L'indexation de pages, c'est dans le but de voir GG nous envoyer des visite depuis ses SERP vers ces pages.
    Sans parler du reisque de voir sont site prendre une claque pour contenu "pauvre", si sur tes +600 millions de pages, tu n'en a que 1% qui amène directement des visiteur depuis les SERP de GG, il va vite se dire qu'il n'y a aucun intérêt à indexer les autres.
     
  18. rand0m
    rand0m WRInaute discret
    Inscrit:
    9 Octobre 2013
    Messages:
    198
    J'aime reçus:
    0
    Je suis d'accord avec Koxin du coup, le contenu des pages battle est pauvre.

    Au fait, la limitation d'un sitemap est de 50,000 URLs selon Google.
     
Chargement...
Similar Threads - indexer milliard Forum Date
Comment indexer en France un site immobilier en anglais pour des produits français ? Débuter en référencement 4 Novembre 2020
Désindexer une page non indexée Crawl et indexation Google, sitemaps 12 Août 2020
PHP Redis : Comment indexer les clés ? Développement d'un site Web ou d'une appli mobile 1 Août 2020
A lire si Google refuse d'indexer toutes vos pages pourtant indexables Crawl et indexation Google, sitemaps 22 Juillet 2020
Désindexer les pages http (sans certificat SSL) après piratage japonais Crawl et indexation Google, sitemaps 1 Juillet 2020
WordPress désindexer les pages feed Crawl et indexation Google, sitemaps 8 Juin 2020
Indexer une page d'un site que l'on ne possède pas Débuter en référencement 17 Mai 2020
Désindexer liste d'URL en générant un sitemap Crawl et indexation Google, sitemaps 2 Mai 2020
Comment empecher google d'indexer "une suite d'URL". Débuter en référencement 8 Mars 2020
WordPress Yoast - Attachment-sitemap.xml à faire indexer ? Débuter en référencement 1 Février 2020