Où sont les bots (sur l'air d'Où sont les femmes ;-) )

Discussion dans 'Crawl et indexation Google, sitemaps' créé par dbourrion, 31 Mai 2009.

  1. dbourrion
    dbourrion Nouveau WRInaute
    Inscrit:
    21 Novembre 2004
    Messages:
    9
    J'aime reçus:
    0
    Bonjour à toutes et tous.

    Je travaille dans une Bu et nous avons exporté tout notre catalogue (un catalogue de bibliothèque n'est en général pas crawlable) en une arborescence web que les bots peuvent crawler, justement. Ce catalogue est là : http://catalogue.univ-angers.fr/

    Cette arborescence est exposée sur un serveur apache, avec un sitemap propre et ok selon Google Webmasters Tools.

    Et les bots Googe ont bien trouvé et le sitemap, et l'arborescence, puisqu'ils indexent les pages en question.

    Mais (car il y a un mais) seule une toute petite part de l'arborescence a été indexée (17000 URLs là où nous en exposons 400000), d'une part ; et les bots passent très rarement, d'autre part (les statistiques de Google Webmasters Tools montrent une activité très très pépère de la part des bots).

    Donc (vous me voyez venir) : comment puis-je faire pour accélérer la cadence et donner un peu de coeur à l'ouvrage aux bots ?

    Merci par avance de votre aide et de vos conseils.
     
  2. saypee
    saypee WRInaute passionné
    Inscrit:
    7 Mai 2005
    Messages:
    2 399
    J'aime reçus:
    0
    Bonjour,
    avoir des liens qui pointent vers vos pages dont le contenu est regulierement (si possible) mis à jour et surtout interressant pour l'internaute.
     
  3. dbourrion
    dbourrion Nouveau WRInaute
    Inscrit:
    21 Novembre 2004
    Messages:
    9
    J'aime reçus:
    0
    Hum... merci de cette piste mais pas simple à faire dans le cas d'un catalogue de bibliothèque (il y a quand même plus de 300 000 références dans ce catalogue...)
     
  4. bruno212
    bruno212 WRInaute occasionnel
    Inscrit:
    13 Février 2005
    Messages:
    452
    J'aime reçus:
    0
    Bon, depuis combien de temps le sitemap est en place ?

    Avez-vous des statistiques sur l'augmentation du nombre de page indexées ?
    Si celui-ci augmente, vous êtes sur la bonne voie, laissez à Google le temps d'indexer le catalogue. Il ne va pas indexer les 400 000 pages d'un coup.

    Peut-être qu'une simplication des URL via une réécriture pourrait améliorer l'indexation des notices du catalogues:

    Remplacer
    Code:
    http://catalogue.univ-angers.fr/F/DDNY6XJBVKYDM12H6QFJ87PLD92DEQ75CPMGJVCIN2E9BNRD8L-25642?func=full-set-set&set_number=000906&set_entry=000001&format=999
    par
    Code:
    http://catalogue.univ-angers.fr/uid-756466475
    en créant une référence unique dans la banque de données pour chaque objet.

    C'est une piste à explorer
     
  5. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 136
    J'aime reçus:
    273
    Bienvenue dbourrion sur le forum de WebRankInfo.

    Comme l'explique d'autres membres il faut un peu de temps pour l'indexation des pages.
    Il faut aussi que les pages soient considérées par Google comme étant intéressantes.

    Complément :
    https://www.webrankinfo.com/forum/f/url-rewriting-et-htaccess.12/ .

    Les membres (qui le souhaitent) se présentent.

    N’hésitez pas dbourrion à participer sur le forum, pour partager vos connaissances, donnez votre avis sur d'autres topics,
    vous aurez alors un rôle constructif dans notre communauté et chacun pourra ainsi évoluer dans le référencement.

    Source : https://www.webrankinfo.com/forum/t/sur-wri-on-dit-merci.98269/ .
     
Chargement...
Similar Threads - Où bots (sur Forum Date
Search Console Prestashop | Robot.txt bloque des URL mais Outil de test du fichier robots.txt l'Authorise... Crawl et indexation Google, sitemaps 21 Novembre 2019
robots.txt pour site multilangue Crawl et indexation Google, sitemaps 1 Octobre 2019
Search Console un fichier robots.txt pour chaque protocole Débuter en référencement 15 Août 2019
WordPress robots.txt pour supprimer une page (duplicate content) Débuter en référencement 2 Mai 2019
Site non responsive, ressources bloquées robots.txt Crawl et indexation Google, sitemaps 15 Avril 2019
Problèmes d'indexation à cause de ressources bloquées (robots.xt) Crawl et indexation Google, sitemaps 22 Novembre 2018
WordPress Bloquer ou non WP include dans le robots.txt ? Référencement Google 5 Septembre 2018
WOOCOMMERCE wordpress ROBOTS.TXT, que bloquez vous ? e-commerce 22 Juin 2018
Où puis-je configurer le fichier robots.txt et le htaccess ? Débuter en référencement 10 Avril 2018
Résolu Toutes les URL bloquées par le fichier robots.txt Crawl et indexation Google, sitemaps 28 Mars 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice