Sitemap crawler pour pré-mise en cache

Discussion dans 'Administration d'un site Web' créé par Julia41, 21 Août 2010.

  1. Julia41
    Julia41 WRInaute passionné
    Inscrit:
    31 Août 2007
    Messages:
    1 779
    J'aime reçus:
    0
    Bon, un petit script que j'ai développé pour des besoins persos, ça peut vous servir, l'idée est que quand vous supprimez votre cache, il faut le reconstruire en se baladant sur le site, et si vous avez 20K de pages à parcourir c'est long.

    Bon, il vous faut un dédié, c'est en bash:
    Code:
    #!/bin/bash
    SMA="URL de votre sitemap.xml"
    SMB="un autre sitemap"
    SLEEP=0.6 # Pause entre chaque crawl
    # C'est parti :
    for i in `curl $SMA | grep "<loc>" | cut -d ">" -f 2 | cut -d "<" -f 1`;
    do
            wget $i -nv -O /tmp/precache.tmp >> /var/log/precache.log;
            echo "$i" >> /var/log/precache.log
            sleep $SLEEP;
    done
    ## L'autre sitemap sinon vous virez ça
    for i in `curl $SMB | grep "<loc>" | cut -d ">" -f 2 | cut -d "<" -f 1`;
    do
            wget $i -nv -O /tmp/precache.tmp >> /var/log/precache.log;
            echo "$i" >> /var/log/precache.log
            sleep $SLEEP;
    done
    rm /tmp/precache.tmp
    Voilà, pour du memcache, c'est plutôt pas mal, perso je le lance après chaque purge de mon cache.
     
  2. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 414
    J'aime reçus:
    0
  3. milkiway
    milkiway WRInaute accro
    Inscrit:
    3 Février 2004
    Messages:
    4 237
    J'aime reçus:
    0
    Merci Julia41 mais quelle utilité par rapport à une solution wget ? Et par rapport à un wget -i avec une liste d'URL ?
     
  4. Julia41
    Julia41 WRInaute passionné
    Inscrit:
    31 Août 2007
    Messages:
    1 779
    J'aime reçus:
    0
    Aucun, mais je pense que la plupart des membres de WRI (référencement) auront un sitemap plutôt qu'une liste d'URL.
    Ca permet de :
    je génère mon sitemap par xx méthodes à minuit. Je lance le script à minuit 10.
     
Chargement...
Similar Threads - Sitemap crawler pré Forum Date
GSiteCrawler SiteMap : generation URLs "exotiques" Débuter en référencement 11 Novembre 2009
Si hreflang implémentés par HTML (<head>), inutile dans sitemaps ? Référencement international (langues, pays) 18 Mai 2020
faut il supprimer un ancien sitemap ? Crawl et indexation Google, sitemaps 6 Mai 2020
Désindexer liste d'URL en générant un sitemap Crawl et indexation Google, sitemaps 2 Mai 2020
Supprimer le sitemap HTML et garder le XML Crawl et indexation Google, sitemaps 27 Avril 2020
WordPress Créer un sitemap simple pour Google Débuter en référencement 9 Mars 2020
Sitemap ancienne version site Crawl et indexation Google, sitemaps 8 Mars 2020
WordPress Sitemap RankMath : page d'accueil du blog Débuter en référencement 2 Mars 2020
Besoin d'un sitemap.xml pour web app en REACT? Débuter en référencement 13 Février 2020
WordPress Yoast - Attachment-sitemap.xml à faire indexer ? Débuter en référencement 1 Février 2020
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice