Réflexions sur l'indexation

Discussion dans 'Crawl et indexation Google, sitemaps' créé par duplex13, 3 Janvier 2008.

  1. duplex13
    duplex13 WRInaute discret
    Inscrit:
    30 Juin 2005
    Messages:
    182
    J'aime reçus:
    1
    Bonjour,

    Depuis quelques temps, je suis un peu dérouté par l'indexation de mon site principal sur Google : je suis passé en quelques semaines de 96 000 pages indexées à 56 000 puis 66 000 puis 76 000 etc ...

    Ça n'arrête pas de monter et de descendre, alors que je ne supprime jamais de pages et que j'ai toujours plus de pages sur mon site. Je constate aussi que l'activité du bot de Google est toujours très active avec une moyenne de 11 000 pages vues par jour.

    Du coup j'ai fait pas mal de recherches et en particulier sur ce forum : pourquoi Google fait tant d'effort avec son bot, alors que dans l'index de Google les pages n'apparaissent pas ou bien certaines pages apparaissent et d'autres disparaissent ?

    Mes réflexions sont les suivantes :
    - quelle est l'influence du sitemap : j'ai 61036 url dans ce fichier dont 51391 indexées et en ce moment, j'ai 76 200 pages dans l'index, soit près de 25 000 de plus que celles du sitemap. Ce sitemap peut-il être un facteur limitant dans le nombre de pages indexées ?
    - une explication possible : le duplicate content. Mais avec autant de pages, il est bien difficile de savoir détecter le duplicate content.

    J'ai donc pensé développer un outil "maison" pour détecter les pages en duplicate content. Mais je manque de matière première : je recherche des informations suivantes :
    - comment un bot voit-il une page ? Suffit-il d'enlever les styles ? les images ? le javascript ?
    - existe-il des algorithmes assez simples de comparaison de texte ?
    - Est-ce qu'il faut faire une analyse plus fine : densité de mots clés, texte entre balises <b>, <h1> ...
    - Est-il possible d'extraire les mots clés de la page en fonctions de l'url, titre, description et texte ? Ce serait intéressant de comparer les mots clés vu des moteurs de recherche avec le mot clé que l'on a associé à la page.

    Par ailleurs mon site présente des résultats sportifs historisés : j'essaie de regrouper les résultats des principaux sports en essayant d'avoir un historique toujours plus important. Or rien ne ressemble plus qu'une page présentant les résultats de la 14ème journée d'un championnat avec celle présentant les résultats de la 15ème journée. Et à part les résultats bruts, je ne sais pas trop comment différencier ces pages.

    Voilà, j'espère que ce post deviendra une base de travail pour des personnes qui se posent les mêmes questions que moi.

    Vincent
     
  2. El-Cherubin
    El-Cherubin WRInaute discret
    Inscrit:
    9 Décembre 2007
    Messages:
    167
    J'aime reçus:
    0
    Pour savoir de quelle façon fonctionne les bots tu peux peut etre deja essayer avec google webmaster tool & google analytics, ca te donne pas mal de stats et devraient te permettre d'y voir un peu plus clair sur le fonctionnement de google bot.

    Apres, je suis surement pas le plus calé sur le sujet, donc je laisse soin aux spécialistes de WRI de completer tout ca.

    Par contre, si tu parviens a developper un bon outil pour le duplicate content, et le distribue en open source, je suis preneur ;)
     
  3. duplex13
    duplex13 WRInaute discret
    Inscrit:
    30 Juin 2005
    Messages:
    182
    J'aime reçus:
    1
    En fait je suis content qu'il y ai une réponse, car je pense que le sujet est intéressant.

    Il est possible que mon post soit mal présenté et trop brouillon. Ou alors il est possible que je sois le seul à avoir autant de page crawlée par google (environ 11000 par jour) sans avoir une augmentation constante du nombre de page indexées.

    J'ai découvert sur WRI que l'on parlait d'outil de calcul de similarité textuelle entre 2 pages web (https://www.webrankinfo.com/forum/t/outil-calcul-de-similarite-textuelle-entre-2-pages-web.23295/) et j'ai commencé à faire des recherches sur l'algorithme Jaccard, mais si quelqu'un a des infos, je suis preneur.

    C'est sur aussi que si je fais un outil satisfaisant qui me permet de détecter le duplicate content je pourrai le diffuser.
     
Chargement...
Similar Threads - Réflexions indexation Forum Date
Justme - Reflexions d'un étudiant Européen Demandes d'avis et de conseils sur vos sites 27 Décembre 2008
Réflexions de Joe Beda sur le travail chez Google Google : l'entreprise, les sites web, les services 25 Mars 2005
Search Console Erreur d'indexation mais URL testée avec succès ?! Crawl et indexation Google, sitemaps 10 Novembre 2022
Search Console Indexation "page avec redirection" Crawl et indexation Google, sitemaps 6 Octobre 2022
WordPress Site multilingues - Mauvaise indexation Crawl et indexation Google, sitemaps 27 Septembre 2022
Problème de crawl et d'indexation Crawl et indexation Google, sitemaps 1 Septembre 2022
Indexation page de paiement ? Crawl et indexation Google, sitemaps 17 Août 2022
Problème d'indexation de backlinks Débuter en référencement 24 Juillet 2022
Problème d'indexation de backlinks Problèmes de référencement spécifiques à vos sites 21 Juillet 2022
Désindexation images en changeant de format (passage à WebP) Crawl et indexation Google, sitemaps 12 Juillet 2022
6 mois après, pas d'indexation correcte dans Google Problèmes de référencement spécifiques à vos sites 8 Juillet 2022
Problème désindexation des pages de Google Débuter en référencement 21 Juin 2022
Indexation à rebours. Crawl et indexation Google, sitemaps 5 Juin 2022
Problème d'indexation de pages sur Google Problèmes de référencement spécifiques à vos sites 31 Mai 2022
référencement site en anglais : indexation plus longue Référencement international (langues, pays) 13 Mai 2022
Problème d'indexation Produits Prestashop Crawl et indexation Google, sitemaps 28 Avril 2022
Problème indexation pages précises en React.js Débuter en référencement 19 Avril 2022
Pourquoi ne pas utiliser le robots.txt pour interdire l'indexation ? Débuter en référencement 14 Avril 2022
Conseil pour accélérer l'indexation de mon nouveau site Problèmes de référencement spécifiques à vos sites 9 Avril 2022
Comment puis-je obtenir l'indexation instantanée de Google ? Débuter en référencement 28 Mars 2022