Nombre de pages indexées

Nouveau WRInaute
Salut à tous,

Google ne semble pas vouloir m'indexer la totalité des pages de mon site.
Sur mes 180000 pages, il n'en présente que 8900 au maximum.
J'ai réalisé un mapsite avec mes 180000 liens, a priori Google est repassé plusieurs fois sur mon site depuis le mapsite, et le nombre de pages indexées n'a pas changé.

J'ai vu les différentes sources d'erreur déja décrites sur le forum (comme les méta identiques...) mais je ne vois pas ce qui cloche.
Seul détail, mon site à 3 mois, et j'ai bien évidemment un PR0, cela peut il jouer? Dois-je plutôt me montrer patient?
Merci d'avance pour vos lumières!
 
WRInaute accro
ça dépends de différents critères...

1- l'ancienneté du site (je ne penses pas que cela soit trés judicieux de faire référencer un site de 3 mois avec des centaines de milliers de pages)
contre productif...spamming ! (à mon avis) --> comment un site qui débute peut avoir une édition aussi soutenue ?

2- la profondeur de ces pages internes (répertoire de premier niveau...deux iveau etc...)

3- la qualité du contenu similaire ou non (duplicate content)
4- etc...
 
Nouveau WRInaute
Je souhaitais rebondir sur ce post car j’ai un problème similaire pour faire indexer toutes mes pages.

Le nombre de pages du site est de 4700 mais je plafonne toujours entre 300 et 400 pages indexées seulement.

Quelques éléments :
• Ancienneté : 10 mois
• Profondeur des pages articles : 3 (CAD : accueil/catégorie/article)
• Titres tous différents (bien sur le mot clé revient sur tous les titres mais les autres mots changent à chaque fois)
• Meta description « dynamique » (c'est-à-dire générée en fonction de l’article donc différente à chaque fois)
• URL rewriting (bon c’est un minimum)
• Plan sitemap à dispo de notre ami qui passe tous les 3 jours
• PR4 (juste pour info)

Voilà, mais j’aimerai bien que « passion » continue sa petite liste car c’est important de savoir pourquoi beaucoup d’entre nous n’arrivent pas à « déplafonner » l’indexation de leurs pages.

Merci d’avance…
:wink:
 
Nouveau WRInaute
Merci pour ces quelques éléments de réponse

1- l'ancienneté du site (je ne penses pas que cela soit trés judicieux de faire référencer un site de 3 mois avec des centaines de milliers de pages)
contre productif...spamming ! (à mon avis)

Que dois-je comprendre par là?

--> comment un site qui débute peut avoir une édition aussi soutenue ?
Mon site n'a effectivement que 3 mois mais déja énormément de pages, pour la simple raison qu'il s'agit d'un moteur de recherche. Le moteur ne tourne d'ailleurs pas 24h/24 sinon je pourrais en avoir bien plus...

2- la profondeur de ces pages internes (répertoire de premier niveau...deux iveau etc...)
La profondeur est variable pour mon site : 1er niveau pour les 50 derniers indexage réalisés, 2eme niveau pour les 1000 suivants, 3eme niveau pour les 1000 suivants...
Il faudrait peut être que je me penche sur cette question des niveaux si cela à une importance.
Je pensais que l'objectif d'un MapSite était justement de permettre à google d'indexer toutes les pages (je suis un peu naïf peut être...)

3- la qualité du contenu similaire ou non (duplicate content)
Je n'ai aucun duplicate content, les meta de mes pages sont bien différentes


Pour en revenir à la question de fdil92, je ne vois pas effectivement en quoi son PR4 bloquerait quoi que ce soit.
Suis en PR0 et j'obtiens 13000 pages indexés (le chiffre à augmenté depuis mon dernier post)

merci pour vos lumières
 
WRInaute discret
J'ai connu un peu le même problème en essayant de comprendre le pourquoi du comment pendant la première année de mon site, c'était en général assez aléatoire avec de brusques hausses et baisses du nombre de pages indexées, mais sur la moyenne il m'a semblé que l'âge était quasi proportionnel à ce nombre pendant la première année... La qualité des pages (contenu) a du jouer aussi..
 
WRInaute occasionnel
J'allais me décider à poser la même question. Je note soigneusement chaque jour le passage du relevé du plan sitemap, le passage de Googlebot et le nombre de pages indexées sur Bigdaddy1, 2 et 3.

Je stagne en nombre de pages depuis largement plus d'un mois avec des variances à la hausse et à la baisse de + ou - 100 pages (entre 2700 et 2900).

J'ai un robots.txt qui remplit bien sa fonction, un sitemap avec un passage quotidien, un GoogleBot qui passe tous les 3 jours environs et mon site s'enrichit de 10 à 20 pages par jour.

Je dois avouer que je cherche aussi à comprendre. J'ai remarqué dans la vitesse d'exploration du site un nombre de pages indexées en forte baisse depuis cet été. Avant un max de 3000 aujourd'hui j'ai du mal à passer un max de 1000… J'en arrive à me demander si l'importance du nombre de pages du site ne joue pas. Le plan sitemap de mon site m'indique un peu plus de 4200 pages.

Quelqu'un a une idée ?
 
Nouveau WRInaute
sur la moyenne il m'a semblé que l'âge était quasi proportionnel à ce nombre pendant la première année...
TDV, il serait interessant que nous dises dans quelles proportions tu es passé de 300 à 170.000 pages indexées ! (évolution/année)


Je stagne en nombre de pages depuis largement plus d'un mois avec des variances à la hausse et à la baisse de + ou - 100 pages
La stagnation est plus inquiétante que la variation, somme toute légère !

Je dois avouer que je cherche aussi à comprendre
Ah ben ca fait plaisir, on est au moins 2 :lol:

Avant un max de 3000 aujourd'hui j'ai du mal à passer un max de 1000…
y'aurait-il des paliers successifs ?

J'en arrive à me demander si l'importance du nombre de pages du site ne joue pas
Si tu veux dire qu'il est impossible de faire indexer 100% des pages d'un site, je crois que c'est faux, puisque la plupart y arrivent !
 
WRInaute accro
Il faut savoir qu'un site est indexé en fonction de différents critères à savoir l'ancienneté, le linkage interne (que toutes les pages soient bien connectées les unes aux autres pour permettre aux moteurs de crawler vos pages internes avec plus de facilité) comme par exemple mettre un plan linké sur toutes les pages, le duplicate content, la qualité des METAS et de son contenu (ne pas dépassé env. 70% de similitude) , etc...

Dans le cas présent, je pencherai plus facilement pour du duplicate... Voir ceci:
https://www.google.com/search?q=site:htt ... art=0&sa=N
Tes pages représentent un ensemble de listing pas ou trop peu de texte. Tes META sont pas optimisés, privilégie un titre dynamique d'une quarantaine de caract. mais pas de:
Tu perds de la pertinence car ce qui est au plus à gauche de cette balise est trés important, les moteurs limite le nb de caract. de cette balise donc si tu mets des trucs inutile, tu perdras sur la pertinence. Ne pas écrire tout en majuscule. Uniquement le début de ta phrase...
- Mais tu manques vraiment de contenu, ne serais-ce que sur ta home!
Comment veux-tu que les moteurs puissent analyser sa thématique s'ils ne peuvent se nourrir de texte ciblé?

A méditer....

Bonne chance!

PS: le PR n'a strictement rien à voir la dedans!

Je viens de me rendre compte de ceci:
http://www.spider-simulator.com/cgi-bin ... t_follow=1
Je ne veux pas te faire peur mais alors là, je ne sais si c'est un bug de l'outil!
Il permets de te montrer comment les moteurs voient ton site. Voici un exemple quand tout est bon:
http://www.spider-simulator.com/cgi-bin ... t_follow=1


Tu as des réponses à cette erreur 403
http://forum.topflood.com/erreur-forbidden-t2058.html
 
Nouveau WRInaute
Merci "passion" pour ces éclairages.

Tout d'abord, pas de problème pour spider-simulator, il est bloqué par mon htaccess (d'ailleurs le tien aussi apparement), faut pas me faire des peurs comme ca un dimanche 8O

Je vais donc creuser du côté du "duplicat content" en étoffant les descriptions et en supprimant le nom de société au début de chaque title. Je vais essayer de passer sous la barre des 70% de contenu identique mais il s'agit d'un catalogue de pièces détachées donc à part la marque et la référence, il est évident que je me retrouve avec plusieurs milliers de descriptions quasiment identiques !

Pour le reste, je t'assure que mes metas sont optimisées car lorsqu'une fiche article est indexée, elle ressort dans les 3 premiers résultats.
Côté internal linking, le plan du site est persistant sur 100% des pages donc je pense que ce good aussi !

Comme tu dis, y'a du boulot et des nuits blanches en perspective :wink:
 
Discussions similaires
Haut