Indexation + priorité + sitemap + google + digg = ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Noah, 17 Mai 2008.

  1. Noah
    Noah Nouveau WRInaute
    Inscrit:
    17 Mai 2008
    Messages:
    3
    J'aime reçus:
    0
    Une petite question pour les professionnels de Google et du sitemap.


    Imaginez un site comme Digg.

    Il y a des news, et celles-ci peuvent être classées sur les 24 dernières heures, la dernière semaine, le dernier mois et sur toute l’année.
    Du coup, on a une page (et donc une url) pour chaque news, et une liste pour chaque type de classement (ça fait 4 listes en tout).
    Si on associe chaque news à une catégorie, et qu’on a 10 catégories en tout, on aurait également 4 listes par catégorie, soit 40 listes possibles en tout et pour tout.
    Vu qu’il y a beaucoup de news, chaque liste est normalement décomposée en plusieurs pages.

    Au final, ça fait un bon paquet d’urls que Google va devoir regarder tous les jours (c-a-d nombre de news + nombre de classements possibles x nombre de catégories x nombre de pages).

    Donc ma question est : « comment donner des priorités à toutes ces urls pour que Google regarde en priorité les pages des news ? »

    Attention, je ne parle pas d'indexation, mais juste de parcours des pages web. Ce que Google fait avec le contenu qu'il a parcouru est un autre problème pour moi.

    Comme ça, à première vue, je dirais d’utiliser le sitemap.

    Si je liste toutes les urls des pages de news dans le sitemap, Google devrait les parcourir en premier…
    Brrrrriinn (<= son très mal imité d’un strident buzzer) : ça ne marche pas. Google s’enfonce dans les méandres des pages des listes, sans jamais parcourir les dernières news.

    Ma deuxième idée serait d’interdire le parcours de ces listes dans le fichier « robots.txt », mais ça va donner un fichier d’une taille monstrueuse qu’il faudra très souvent mettre à jour (car chaque nouveau lot de news ajoute une page dans les listes).

    Ma troisième idée revient vers le sitemap : peut-être qu’il faut indiquer clairement à Google que les listes existent mais leur donner une priorité toute petite pour qu’il parcourt d’abord les news (qui, elles, auront, bien sûr, une priorité beaucoup plus grande).

    Quatrième possibilité : je me plante complètement car je ne suis qu’un débutant, et on va gentiment m’expliquer qu’on ne peut rien faire, et que c’est comme ça la vie. ;o)

    Si une âme charitable pouvait me mettre sur la voie, je la remercie chaleureusement d’avance.

    En tout cas, merci de m’avoir lu jusqu’au bout.
     
  2. touftouf
    touftouf WRInaute occasionnel
    Inscrit:
    7 Novembre 2005
    Messages:
    365
    J'aime reçus:
    0
    je pense que l'indexation se base en partie en fonction de l'actualité, des requetes les plus tapés pour donner une priorité aux pages
     
  3. Noah
    Noah Nouveau WRInaute
    Inscrit:
    17 Mai 2008
    Messages:
    3
    J'aime reçus:
    0
    Je me suis mal exprimé en parlant d'indexation : il fallait lire « comment donner des priorités à toutes ces urls pour que Google parcourt en priorité les pages des news ? » à la place de "Google indexe".

    Car dans mon problème, je ne parle pas du résultat du parcours du site web par GG..
    L'indexation et la position de mes pages de news dans les résultats de Google m'importent peu (à ce niveau de la discussion, bien sûr :wink: ).

    Je voudrais juste éviter que Google perde tout son temps à parcourir des milliers de pages web secondaires (c-a-d les pages des listes) au détriment des principales (c-a-d les pages de news).

    @touftouf : comme Google ne connaît pas encore le contenu de ces pages, on ne peut pas parler d'un parcours en fonction de l'actualité ou des requêtes les plus tapées.
     
  4. HawkEye
    HawkEye WRInaute accro
    Inscrit:
    23 Février 2004
    Messages:
    13 857
    J'aime reçus:
    5
    Je pense que l'erreur à la base est de faire un lien entre sitemap XML et indexation.

    A l'heure actuelle, il n'est aucunement question de lien entre Sitemap XML et indexation par GoogleBot, si ce n'est dans le sens opposé à celui que tu imagines, à savoir qu'en fournissant une liste d'URLs à Google, il te dit si oui ou non elles sont indexées.

    Pour le reste, <a href=""></a> est ton seul ami ;)
     
  5. Noah
    Noah Nouveau WRInaute
    Inscrit:
    17 Mai 2008
    Messages:
    3
    J'aime reçus:
    0
    Damned, ma confusion entre indexation et parcours, dans mon message initial, est en train de fausser complètement la discussion.

    @HawkEye : ok, il n'y a pas de lien entre le sitemap et l'indexation.
    Mais il y a bien une corrélation entre le parcours de Google dans le site et le sitemap, non ?
    Sinon, à quoi sert le sitemap ? (en plus de ce que tu as dit sur la possibilité de vérifier si une url est indexée ou non)

    J'ai fait un petit test cette semaine pour voir l'impact des priorités sur le sitemap.

    Jusqu'à maintenant, mon sitemap ne contenait que les pages de news avec une priorité de 5 (pas d'urls sur mes différentes listes), et Google passait malheureusement plus de temps à parcourir mes listes que mes news.
    Pire, ça faisait plusieurs semaines que GG ne parcourait pratiquement plus les news.

    Alors, j'ai mis une priorité de 9 aux 24 dernières news dans le sitemap (normal vu qu'elles sont plus fraiches que les anciennes). Et hop, comme par magie, GG parcourt enfin ces news (et je parle de parcours et pas d'indexation, soyons clair).

    Il y a donc bien une corrélation entre les informations du sitemap et le parcours de Google.

    Donc, si le concept de priorité dans le sitemap est bien réel, quelle est la priorité des pages ne figurant pas dans le sitemap ?
     
Chargement...
Similar Threads - Indexation priorité sitemap Forum Date
Problème désindexation des pages de Google Débuter en référencement 21 Juin 2022
Indexation à rebours. Crawl et indexation Google, sitemaps 5 Juin 2022
Problème d'indexation de pages sur Google Problèmes de référencement spécifiques à vos sites 31 Mai 2022
référencement site en anglais : indexation plus longue Référencement international (langues, pays) 13 Mai 2022
Problème d'indexation Produits Prestashop Crawl et indexation Google, sitemaps 28 Avril 2022
Problème indexation pages précises en React.js Débuter en référencement 19 Avril 2022
Pourquoi ne pas utiliser le robots.txt pour interdire l'indexation ? Débuter en référencement 14 Avril 2022
Conseil pour accélérer l'indexation de mon nouveau site Problèmes de référencement spécifiques à vos sites 9 Avril 2022
Comment puis-je obtenir l'indexation instantanée de Google ? Débuter en référencement 28 Mars 2022
Questions URL canonique, crawl et indexation Débuter en référencement 25 Mars 2022
Indexation de mon site dans Google Problèmes de référencement spécifiques à vos sites 13 Mars 2022
Search Console Problème d'indexation Crawl et indexation Google, sitemaps 24 Février 2022
Indexation d'urls en caractères russes Crawl et indexation Google, sitemaps 16 Février 2022
Search Console Impossible de demander une indexation manuelle, état exclut Problèmes de référencement spécifiques à vos sites 12 Février 2022
Problème indexation car élément "url" manquant sur logo Crawl et indexation Google, sitemaps 11 Février 2022
Search Console Indexation Google Search Console Référencement Google 9 Février 2022
Indexation d'un eshop principal FR / EN et de eshops dédiés US / FR Crawl et indexation Google, sitemaps 4 Février 2022
Search Console Problème indexation sitemap Problèmes de référencement spécifiques à vos sites 1 Février 2022
Lenteur d'indexation? Crawl et indexation Google, sitemaps 31 Janvier 2022
Problème d'indexation Google Problèmes de référencement spécifiques à vos sites 19 Janvier 2022