Réflexions sur l'indexation

duplex13 · 3 Janvier 2008

Bonjour,

Depuis quelques temps, je suis un peu dérouté par l'indexation de mon site principal sur Google : je suis passé en quelques semaines de 96 000 pages indexées à 56 000 puis 66 000 puis 76 000 etc ...

Ça n'arrête pas de monter et de descendre, alors que je ne supprime jamais de pages et que j'ai toujours plus de pages sur mon site. Je constate aussi que l'activité du bot de Google est toujours très active avec une moyenne de 11 000 pages vues par jour.

Du coup j'ai fait pas mal de recherches et en particulier sur ce forum : pourquoi Google fait tant d'effort avec son bot, alors que dans l'index de Google les pages n'apparaissent pas ou bien certaines pages apparaissent et d'autres disparaissent ?

Mes réflexions sont les suivantes :
- quelle est l'influence du sitemap : j'ai 61036 url dans ce fichier dont 51391 indexées et en ce moment, j'ai 76 200 pages dans l'index, soit près de 25 000 de plus que celles du sitemap. Ce sitemap peut-il être un facteur limitant dans le nombre de pages indexées ?
- une explication possible : le duplicate content. Mais avec autant de pages, il est bien difficile de savoir détecter le duplicate content.

J'ai donc pensé développer un outil "maison" pour détecter les pages en duplicate content. Mais je manque de matière première : je recherche des informations suivantes :
- comment un bot voit-il une page ? Suffit-il d'enlever les styles ? les images ? le javascript ?
- existe-il des algorithmes assez simples de comparaison de texte ?
- Est-ce qu'il faut faire une analyse plus fine : densité de mots clés, texte entre balises <b>, <h1> ...
- Est-il possible d'extraire les mots clés de la page en fonctions de l'url, titre, description et texte ? Ce serait intéressant de comparer les mots clés vu des moteurs de recherche avec le mot clé que l'on a associé à la page.

Par ailleurs mon site présente des résultats sportifs historisés : j'essaie de regrouper les résultats des principaux sports en essayant d'avoir un historique toujours plus important. Or rien ne ressemble plus qu'une page présentant les résultats de la 14ème journée d'un championnat avec celle présentant les résultats de la 15ème journée. Et à part les résultats bruts, je ne sais pas trop comment différencier ces pages.

Voilà, j'espère que ce post deviendra une base de travail pour des personnes qui se posent les mêmes questions que moi.

Vincent

El-Cherubin · 4 Janvier 2008

Pour savoir de quelle façon fonctionne les bots tu peux peut etre deja essayer avec google webmaster tool & google analytics, ca te donne pas mal de stats et devraient te permettre d'y voir un peu plus clair sur le fonctionnement de google bot.

Apres, je suis surement pas le plus calé sur le sujet, donc je laisse soin aux spécialistes de WRI de completer tout ca.

Par contre, si tu parviens a developper un bon outil pour le duplicate content, et le distribue en open source, je suis preneur

duplex13 · 4 Janvier 2008

En fait je suis content qu'il y ai une réponse, car je pense que le sujet est intéressant.

Il est possible que mon post soit mal présenté et trop brouillon. Ou alors il est possible que je sois le seul à avoir autant de page crawlée par google (environ 11000 par jour) sans avoir une augmentation constante du nombre de page indexées.

J'ai découvert sur WRI que l'on parlait d'outil de calcul de similarité textuelle entre 2 pages web (https://www.webrankinfo.com/forum/t/outil-calcul-de-similarite-textuelle-entre-2-pages-web.23295/) et j'ai commencé à faire des recherches sur l'algorithme Jaccard, mais si quelqu'un a des infos, je suis preneur.

C'est sur aussi que si je fais un outil satisfaisant qui me permet de détecter le duplicate content je pourrai le diffuser.