indexation de 1,5 millions de pages --sic--

WRInaute discret
bonjour

comme vous êtes de bon conseils je vous demande --encore-- vos avis.

je suis un site (donc "je" c'est le site)

je contients 1,5 millions d'articles (si si 1,5 millions)... en les assemblant correctement je trouve 54 000 catégories ou mots-clefs (si si) et un autre assemblage donne 92 000 catégories... en plus le site pourra proposer les articles en plusieures langues d'ici peu!

bien sûr je propose un formulaire de recherche et affiche grace à php/mysql les résultats demandés... et donc GG n'indexe que ma page d'entrée sur le site www*monnomdedomaine*com/index.php et ne vois jamais mes résultats

donc google ne me connait pas sur les articles du site (titre contenu mot clef des articles) mais juste sur les backlink vers la page principale --sic--

j'ai pourtant un PR de 5 et suis sur la première page de GG sur une recherche du thème générale (donc avec 2-3 pages au final)

si je crée un catalogue en .html des articles (juste des informations pertinentes... titre, risque, pertinence, etc) soit 54000 listing + 92000 listing on clique sur le lien dans le listing et il affiche dans index.php mon résultats garce à un url rewriting du style /FR/AAB/xxyxyxyx/le_titre_de_l_article.html devient pour apache index.php?LNAG=FR&ART= xxyxyxyx

ça va donner 54000 + 92000 pages qui renvoient à 1,5 millions de page à indexer du jour au lendemain....

je vais pas aller directement jouer dans le bac à sable avec ça?

je peux protéger ma page principale avec un scheams du style

page principale --vers-- 1 présentation des catalogues A--vers-- 54000 catalogues --vers-- 1,5millions de pages
page principale --vers-- 1 présentation des catalogues B--vers-- 92000 catalogues --vers-- 1,5millions de pages

?

(dans l'attente de vos avis je vais déjà aller piquer le rateau et le sceau de mon gamin...)
 
WRInaute accro
Avec un site énorme comme tu parles, pourquoi s'occuper de sandbox qui se passe en quelques semaines sur la vie d'un site qui doit être de plusieurs années. Fait ton biz, va doucement sur le réfé au début et on se revoit plus tard :)
 
WRInaute passionné
Sur un truc comme cela, il faut le faire stratégique.

Regarder dans tes statistiques quelles sont les articles les plus consultés.

Balancer en ligne 1000 à 5000 pages HTML tous les 3 jours en priorité sur les articles les plus consultés.
 
WRInaute passionné
bee_human a dit:
Sur un truc comme cela, il faut le faire stratégique.

Regarder dans tes statistiques quelles sont les articles les plus consultés.

Balancer en ligne 1000 à 5000 pages HTML tous les 3 jours en priorité sur les articles les plus consultés.

Liés les articles les uns aux autres via tes mots-clefs, catégorie, tags ...
 
WRInaute discret
Heu ... le bac à sable c'est pour les liens externes ... pas internes donc tu peux y aller franco. D'facon le temps que tout soit indexé ...
 
WRInaute discret
Waouuu ... 3 grands WRINautes d'un coup ... :D je suis flatté

Suede a dit:
Liés les articles les uns aux autres via tes mots-clefs, catégorie, tags ...
c'est déjà fait... mais pour arriver sur le premier article on doit passer par un formulaire... d'ou l'idée de pages catalogues avec un minimum d'infos et sans liens croisés ('internaute les aura dans l'article)

bee_human a dit:
Balancer en ligne 1000 à 5000 pages HTML tous les 3 jours en priorité sur les articles les plus consultés.
oui c'est une idée à creuser! une forme de limitateur évolutif chronologique dans les sous script php/mysql des catalogueurs, pas compliqué à faire, juste trouver le rythme de croisière qui satisfasse l'apétit de GG...

Thierry Bugs a dit:
Avec un site énorme comme tu parles, pourquoi s'occuper de sandbox qui se passe en quelques semaines sur la vie d'un site qui doit être de plusieurs années.
parceque je veux pas que le site tombe en chute libre sur GG... c'est la source de revenu de ma boite ... faut bien que les rédacteurs mangent à la fin du mois ... alors si je suis "pénalisé" pendant 3 mois par GG ça va être régime sec!

Thierry Bugs a dit:
Fait ton biz, va doucement sur le réfé au début et on se revoit plus tard
c'est clair que je vous tiens au courant! :P
le référencement est déjà fait (et on le continue un peu tout le temps)

j'ai peut-être mal compris la notion de sandbox... peut-être n'est-ce pas pour l'augmentation soudaine de la taille du site mais seulement des backlinks

en tout cas merci à tous les trois
 
WRInaute occasionnel
Thierry Bugs a dit:
Avec un site énorme comme tu parles, pourquoi s'occuper de sandbox qui se passe en quelques semaines sur la vie d'un site qui doit être de plusieurs années. Fait ton biz, va doucement sur le réfé au début et on se revoit plus tard :)

tiens, est-ce que ça veut dire que plus un site a du contenu (nb de pages) plus la durée de sandbox est courte?
 
WRInaute impliqué
jfcontart a dit:
Thierry Bugs a dit:
Avec un site énorme comme tu parles, pourquoi s'occuper de sandbox qui se passe en quelques semaines sur la vie d'un site qui doit être de plusieurs années.
parceque je veux pas que le site tombe en chute libre sur GG... c'est la source de revenu de ma boite ... faut bien que les rédacteurs mangent à la fin du mois ... alors si je suis "pénalisé" pendant 3 mois par GG ça va être régime sec!

J'ai pas bien compris : tu parviens à payer des rédacteurs en n'ayant que ta home page indexée dans Google ???
Que retourne le commande site:DOMAINE_DE_TON_SITE sur Google ?
 
WRInaute discret
la commande site:NDD retourne 5 pages actuelles et des centaines de pages mal indéxées de sa part(GG ajoute des données de session) visiblment le cookie_only de PHP et GG sont pas des grands pôtes.

edit

quoiqu' à la reflexion c'est peut-être aussi des gens qui copient collent l'url des résultats obtenus dans leur page... résultats GG suit ces lien avec l'indicateur de session du site référent (donc il s'invalide chez moi mais GG le mémorise comme élément de l'url) et affiche un résultat...
 
WRInaute discret
Si tu veux indexer toutes tes pages il te faudra avoir soit une trés forte popularité, soit un contenu trés peu similaire (en particulier pour les meta title) sur ton million de page, ce qui ne va pas être évident à réussir.

Evite d'avoir plus de 100 liens sur chacune de tes pages (en particulier pour le plan du site).

Evite les page ne possedant qu'un listing de lien sans contenu.

Fait un sitemap xml et renseigne le dans ton robots.txt.
 
WRInaute occasionnel
Juste une idée comme ça (dites-moi si je me goure) :

Si toutes les pages sont liées entre-elles par ce système de tag, il ne suffirait pas de donner l'adresse à google d'une de ces pages (ou des quelques unes, les meilleures par exemple) ? Il l'indexerait, puis partirait à la recherche des quelques suivantes, mais ne les indexerait que petit à petit. Ca se passerait probablement mieux que de donner plusieurs centaines de milliers de liens d'un coup.
 
WRInaute discret
cloacking a dit:
Peux t-on voir un site avec 1.5 million d'articles mis à part wikipédia ?
bien sûr
wikipedia c'est une encyclopédie...
les pages jaunes en ont bien plus ...

ne focalisez pas sur les termes article&catalogue... c'est juste une dénomination pratique pour illustrer.
j'aurais pu écrire ... événement d'un jour donné et 2000 calendriers de 365 jours.... (soit ici 2000*365 = 0,7 millions de données)
si je référence de mon coté toutes les caratèristiques d'insectes pour leur classification, ou toutes les molécules brévetées, ou que je donne un nom à chaque flocon de neige avec sa date de naissance et sa date de fonte(tiens là j'ai l'idée du site le plus stupide du millénaire)... l'information n'a pas besoin de faire 10 pages pour être pertinente :D parfois 1 ligne suffit, parfois même l'absence est une information : y a un risque à faire ça : oui (et listing) / non (pas de liste)

je reste assez vague sur le sujet... d'abord parceque je respecte les consignes du forum de ne pas parler de mon site ni de lui faire de pub ici (ce que je trouve bien :D ) ensuite parceque je ne veux pas donner d'indice à la concurence (gratuite et payante)

r23o a dit:
Evite les pages ne possédant qu'un listing de lien sans contenu
c'est bien là le problème... :( l'information ne me semble pas pertinente sous cette forme de "listing" seuls quelques spécialistes de notre domaine seront à même de s'y retrouver et d'apprécier. Peut-être 10 000 personnes sur la planète.
Mais le spécialiste ne nous trouve pas si GG ne reférence pas notre site à l'aide de ce listing.

on risque de noyer les néophytes à notre domaine ou de les déstabiliser.

Arghhhh je me demande si on ne fait pas fausse route à vouloir être mieux vu via GG par ce moyen.
 
WRInaute discret
vous inquiétez pas si je réponds plus... je vais voir deux spécialistes pour leur demander leur avis.

en tout cas merci pour toutes vos remarques elles ont toutes été très constructives. C'est un vrai plaisir ce forum! :D
 
WRInaute impliqué
l'information n'a pas besoin de faire 10 pages pour être pertinente
Ce n'est donc pas des articles, j'ai eu peur :oops:
Tout comme les pages jaunes que vous citez, pour eux c'est juste des données donc sans trop de valeur ajouté à mon sens et là c'est donc beaucoup plus dur de tout faireindexer et positionner convenablement :wink:

Idem que si on part d'une base de 36.000 ville et que l'on propose un page pour chaque ville avec rencontre, immobilier, petites annonces, etc ...
On se retrouve vite avec plus de 500.000 pages mais sans plus !
 
WRInaute passionné
Vu qu'il y a un formulaire, je pense qu'il y a moyen de tirer de ça un Tag cloud et donc de mettre en avant en premier les articles que les internautes préfèrent ;-)
C'est à la mode en plus :-D
 
WRInaute discret
Bonjour

bon, alors, suite à une grosse discussion (de 3 jours :wink: ) avec deux de mes spécialistes, on a décidé de faire un test avec une rubrique très particulière de nos articles. On va mettre en place les articles qui réponde à un sujet très précis : le risque. Nous avons 155 175 articles évalués comme à risque, avec donc 155 175 mots clefs. Cette information peut (et va) aider les visiteurs à évaluer leur risques à confondre ces articles.

C'est donc une information très courte (l'article de chaque risque comporte entre 2 et 16 lignes explicatives allant du "aucun risque " en passant par le fameux "holallalalalalala" jusqu'au très connu et fatal "WHAAAAAAAAAAAAAAANONMONDIEUPASCA") (oui je suis fan de terry pratchett)

le catalogue va classer les noms des produits selon leur trois premières lettres (ce qui donne 1444 pages pour lister les 155 175 articles)

on va placer un lien de la page d'entrée vers le catalogue, puis 1444 liens vers les liste des produit dont les 3 premmières sont (le choix) puis un lien pour chaque produits vers sa fiche de risque.

les pages vont donc fortement varier en poids en plus.

pour le moment le site est sur GG
en 11 ème position sur motA
en 8 ème position sur motA motB

les 155 175 ne sont pas des mot français... donc seuls les recherches spécifiques à notre domaine doit les trouver en plus ou moins haute position

j'éditerai un suivi régulier pour vous informer de ce qui se passe. Bien sûr si tout se passe bien, je vais lancer les 1,5millions d'articles.

pour ceux que ça intéresse... :P
A+ :roll:
 
WRInaute discret
>bozoleclown
je ne crois pas que cela passera. J'ai lu dans google une limite à 1000 articles quelques parts (mais je trouve plus où)

et puis un fichier xml, même pour commencer, de 155 175 termes, ça me semble lourd à générer et délicat à fournir à GG. GG va nous faire une indigestion..

question aussi: si on place un sitemaps, google se contente juste de celui-ci ou alors il va quand même explorer les pages/liens en plus, parceque dans ce cas je mets juste le sitemaps des catalogues et il ira voir les pages lui même?

et petite note : GG n'est pas repassé sur notre site depuis le 27 Septembre 2007 (soit 6 jours...) c'est bizarre... et on chutre dans les positionnements (-6 places)... peut-être un effet de notre nouveau CMS ?!?

GG ne nous avait jamais fait ça en trois ans!
 
WRInaute impliqué
non ce n'est pas limité

un fichier sitemaps doit faire 10Mo maximum.
et tu peux agréger 1000 fichiers sitemaps dans un fichier sitemaps générique

Donc 1000*10Mo je pense que tu as ce qu'il faut.

www.sitemaps.org pour le détail de l'implémentation.

tu as changé de CMS en conservant les anciennes urls ou bien ce sont de nouvelles ?
 
WRInaute discret
c'est le cms de la boîte et on a changé les modèles d'url pour le coté pratique dans la version 6. On utilise maitenant du urlrewriting avec des fichiers qui ont un nom significatif style www*ndd*com/FR/REF/12455777/titre_de_la_page.html

Google va pas aimer (du moins un temps) ensuite on va lui fournir de quoi le rassasier (les 1,5 millions de pages)

c'est sûr que dans l'idéal changer les URL c'est pas bien vu par GG, mais vu que l'on va passer d'un site à formulaire (5 pages) à un site à formualire simplifié (1 page) plus nos articles en référence pour GG (1,5 millions) ça vaut le coup (du moins pour ce site)

pour le sitempas je pense que tu veux parler de la structure suivante :
Code:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

C'est une super bonne idée car notre CMS ne générer pas directement le sitempas pour les 1,5 M car techniquement ce sont pas des "articles" du CMS mais des données de la base développée pour les outils de ce site. donc je crée un sitempas des données et le rajoute manullement via un tag sitemap dans le sitemap auto-généré par le CMS.

Hummm j'aime BEAUCOUP :P

Merci[/code]
 
WRInaute discret
on a limité en mettant un tag meta robots à noindex, c'est suffisant non?

et au fait tu sais si GG se contente du sitemap ou s'il va quand même explorer le site?

merci
 
WRInaute impliqué
google continuera de crawling
d'ailleurs c'est pas dit qu'il crawl ton sitemaps tout de suite mais bon à mon sens ca ne fait pas de mal

c un comparateur de prix ton site ? enfin des flux xml d'affiliiations remis en forme ?
 
WRInaute discret
> bozoleclown
non :D c'est un domaine très spécialisé... mais chut... on joue pas à "question pour un champion"... l'intérêt est surtout de voir comment GG réagit fasse à un site qui a beaucoup de contenu en page, des articles très court et qui n'est pas "people" ou dans un "buzz"... et mon domaine est VRAIMENT pas people! ;-p

alors, ça y est, GG est repassé le 3 oct 2007 (il a eu une panne le robot de GG, il est repassé sur aucun de mes sites durant 5 jours?!?)

résultats : il a indexé les catalogues uniquement et pas jusqu'au bout (je dirais à vu de nez 45% en commençant par le début).

Donc il y a une limite au nombre de liens indéxés par pages. (ok on le savait)

Je vais re-programmer le catalogue en deux niveaux : catalogue de A à Z puis si on clique sur A, catalogue des pages commençant par ABA,ABB,ABD,ABE,ABH,ABI, etc.
le but étant d'avoir moins de 100 liens par catalogues!

ensuite limiter les listing à moins de 100 redirections avec une méthode de résultats par pages (page suivante, page1 , page2 ... dernière page) un simple limit $X,100 devrais suffir, juste revoir le type d'URL pour transférer la page avec l'indice du catalogue.

j'ai des mots-clefs que seul mon site utilise donc je peux facilement tester : si GG ne donne aucun résultat c'est qu'il n'est pas venu me voir.

A+ pour le prochain épisode


[/quote]
 
WRInaute discret
GG est repassé le 8 oct 2007 ... il a commencé l'indexation doucement ... depuis les outils pour webmaster j'ai un site:www*domaine*com qui me donne 10 100 résultats.

il ne donne toujours pas de lien direct sur les articles de risque! Vu que c'est un CMS il a peut-être trop peu de texte au milieu de la page de navigation qui différe d'une page à l'autre? GG semble se focaliser sur les catalogues! (qui eux sont pleins de textes et liens différents)

je vais laisser tourner un peu pour voir.

le sitemap est trop lourd (même avec des index) et puis c'est une étude intérressante au niveau de l'indexation "naturelle" de GG. Ca me/nous/vous servira pour d'autres sites :P

Pour forcer GG à revenir plus souvent je vais modifier la présentation des infos des pages de risques après chaque passage de GG... est-ce une bonne idéee?

Et il faut combien de % de différence entre deux pages pour éviter le duplicate contents? (ok personne peut savoir, mais peut-être que qq a un chiffre empirique à avancer)

A+
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut