Bonjour,
Depuis quelques temps, je suis un peu dérouté par l'indexation de mon site principal sur Google : je suis passé en quelques semaines de 96 000 pages indexées à 56 000 puis 66 000 puis 76 000 etc ...
Ça n'arrête pas de monter et de descendre, alors que je ne supprime jamais de pages et que j'ai toujours plus de pages sur mon site. Je constate aussi que l'activité du bot de Google est toujours très active avec une moyenne de 11 000 pages vues par jour.
Du coup j'ai fait pas mal de recherches et en particulier sur ce forum : pourquoi Google fait tant d'effort avec son bot, alors que dans l'index de Google les pages n'apparaissent pas ou bien certaines pages apparaissent et d'autres disparaissent ?
Mes réflexions sont les suivantes :
- quelle est l'influence du sitemap : j'ai 61036 url dans ce fichier dont 51391 indexées et en ce moment, j'ai 76 200 pages dans l'index, soit près de 25 000 de plus que celles du sitemap. Ce sitemap peut-il être un facteur limitant dans le nombre de pages indexées ?
- une explication possible : le duplicate content. Mais avec autant de pages, il est bien difficile de savoir détecter le duplicate content.
J'ai donc pensé développer un outil "maison" pour détecter les pages en duplicate content. Mais je manque de matière première : je recherche des informations suivantes :
- comment un bot voit-il une page ? Suffit-il d'enlever les styles ? les images ? le javascript ?
- existe-il des algorithmes assez simples de comparaison de texte ?
- Est-ce qu'il faut faire une analyse plus fine : densité de mots clés, texte entre balises <b>, <h1> ...
- Est-il possible d'extraire les mots clés de la page en fonctions de l'url, titre, description et texte ? Ce serait intéressant de comparer les mots clés vu des moteurs de recherche avec le mot clé que l'on a associé à la page.
Par ailleurs mon site présente des résultats sportifs historisés : j'essaie de regrouper les résultats des principaux sports en essayant d'avoir un historique toujours plus important. Or rien ne ressemble plus qu'une page présentant les résultats de la 14ème journée d'un championnat avec celle présentant les résultats de la 15ème journée. Et à part les résultats bruts, je ne sais pas trop comment différencier ces pages.
Voilà, j'espère que ce post deviendra une base de travail pour des personnes qui se posent les mêmes questions que moi.
Vincent
Depuis quelques temps, je suis un peu dérouté par l'indexation de mon site principal sur Google : je suis passé en quelques semaines de 96 000 pages indexées à 56 000 puis 66 000 puis 76 000 etc ...
Ça n'arrête pas de monter et de descendre, alors que je ne supprime jamais de pages et que j'ai toujours plus de pages sur mon site. Je constate aussi que l'activité du bot de Google est toujours très active avec une moyenne de 11 000 pages vues par jour.
Du coup j'ai fait pas mal de recherches et en particulier sur ce forum : pourquoi Google fait tant d'effort avec son bot, alors que dans l'index de Google les pages n'apparaissent pas ou bien certaines pages apparaissent et d'autres disparaissent ?
Mes réflexions sont les suivantes :
- quelle est l'influence du sitemap : j'ai 61036 url dans ce fichier dont 51391 indexées et en ce moment, j'ai 76 200 pages dans l'index, soit près de 25 000 de plus que celles du sitemap. Ce sitemap peut-il être un facteur limitant dans le nombre de pages indexées ?
- une explication possible : le duplicate content. Mais avec autant de pages, il est bien difficile de savoir détecter le duplicate content.
J'ai donc pensé développer un outil "maison" pour détecter les pages en duplicate content. Mais je manque de matière première : je recherche des informations suivantes :
- comment un bot voit-il une page ? Suffit-il d'enlever les styles ? les images ? le javascript ?
- existe-il des algorithmes assez simples de comparaison de texte ?
- Est-ce qu'il faut faire une analyse plus fine : densité de mots clés, texte entre balises <b>, <h1> ...
- Est-il possible d'extraire les mots clés de la page en fonctions de l'url, titre, description et texte ? Ce serait intéressant de comparer les mots clés vu des moteurs de recherche avec le mot clé que l'on a associé à la page.
Par ailleurs mon site présente des résultats sportifs historisés : j'essaie de regrouper les résultats des principaux sports en essayant d'avoir un historique toujours plus important. Or rien ne ressemble plus qu'une page présentant les résultats de la 14ème journée d'un championnat avec celle présentant les résultats de la 15ème journée. Et à part les résultats bruts, je ne sais pas trop comment différencier ces pages.
Voilà, j'espère que ce post deviendra une base de travail pour des personnes qui se posent les mêmes questions que moi.
Vincent