Sitemap crawler pour pré-mise en cache

Discussion dans 'Administration d'un site Web' créé par Julia41, 21 Août 2010.

  1. Julia41
    Julia41 WRInaute passionné
    Inscrit:
    31 Août 2007
    Messages:
    1 779
    J'aime reçus:
    0
    Bon, un petit script que j'ai développé pour des besoins persos, ça peut vous servir, l'idée est que quand vous supprimez votre cache, il faut le reconstruire en se baladant sur le site, et si vous avez 20K de pages à parcourir c'est long.

    Bon, il vous faut un dédié, c'est en bash:
    Code:
    #!/bin/bash
    SMA="URL de votre sitemap.xml"
    SMB="un autre sitemap"
    SLEEP=0.6 # Pause entre chaque crawl
    # C'est parti :
    for i in `curl $SMA | grep "<loc>" | cut -d ">" -f 2 | cut -d "<" -f 1`;
    do
            wget $i -nv -O /tmp/precache.tmp >> /var/log/precache.log;
            echo "$i" >> /var/log/precache.log
            sleep $SLEEP;
    done
    ## L'autre sitemap sinon vous virez ça
    for i in `curl $SMB | grep "<loc>" | cut -d ">" -f 2 | cut -d "<" -f 1`;
    do
            wget $i -nv -O /tmp/precache.tmp >> /var/log/precache.log;
            echo "$i" >> /var/log/precache.log
            sleep $SLEEP;
    done
    rm /tmp/precache.tmp
    Voilà, pour du memcache, c'est plutôt pas mal, perso je le lance après chaque purge de mon cache.
     
  2. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
  3. milkiway
    milkiway WRInaute accro
    Inscrit:
    3 Février 2004
    Messages:
    4 238
    J'aime reçus:
    0
    Merci Julia41 mais quelle utilité par rapport à une solution wget ? Et par rapport à un wget -i avec une liste d'URL ?
     
  4. Julia41
    Julia41 WRInaute passionné
    Inscrit:
    31 Août 2007
    Messages:
    1 779
    J'aime reçus:
    0
    Aucun, mais je pense que la plupart des membres de WRI (référencement) auront un sitemap plutôt qu'une liste d'URL.
    Ca permet de :
    je génère mon sitemap par xx méthodes à minuit. Je lance le script à minuit 10.
     
Chargement...
Similar Threads - Sitemap crawler pré Forum Date
GSiteCrawler SiteMap : generation URLs "exotiques" Débuter en référencement 11 Novembre 2009
Url redirigée en 301 mais indexée : problème sitemap ? Crawl et indexation Google, sitemaps 9 Octobre 2019
Search Console Comment faire évoluer son sitemap Débuter en référencement 17 Août 2019
WordPress Indexée, mais non envoyée via un sitemap Crawl et indexation Google, sitemaps 5 Août 2019
Webmaster tools - Impossible de lire le sitemap Crawl et indexation Google, sitemaps 31 Juillet 2019
Mauvais sitemap statique déclaré Crawl et indexation Google, sitemaps 24 Juin 2019
sitemap exclue par la balise "noindex" Problèmes de référencement spécifiques à vos sites 18 Juin 2019
sitemap par type de page et par langue Référencement international (langues, pays) 28 Mai 2019
Search Console Passage de HTTP à HTTPS (Fichiers ROBOTS.TXT et SITEMAP) 0 Crawl et indexation Google, sitemaps 16 Mai 2019
Budget de crawl et images "Indexée, mais non envoyée via un sitemap" Problèmes de référencement spécifiques à vos sites 13 Mai 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice