Sitemap crawler pour pré-mise en cache

Discussion dans 'Administration d'un site Web' créé par Julia41, 21 Août 2010.

  1. Julia41
    Julia41 WRInaute passionné
    Inscrit:
    31 Août 2007
    Messages:
    1 779
    J'aime reçus:
    0
    Bon, un petit script que j'ai développé pour des besoins persos, ça peut vous servir, l'idée est que quand vous supprimez votre cache, il faut le reconstruire en se baladant sur le site, et si vous avez 20K de pages à parcourir c'est long.

    Bon, il vous faut un dédié, c'est en bash:
    Code:
    #!/bin/bash
    SMA="URL de votre sitemap.xml"
    SMB="un autre sitemap"
    SLEEP=0.6 # Pause entre chaque crawl
    # C'est parti :
    for i in `curl $SMA | grep "<loc>" | cut -d ">" -f 2 | cut -d "<" -f 1`;
    do
            wget $i -nv -O /tmp/precache.tmp >> /var/log/precache.log;
            echo "$i" >> /var/log/precache.log
            sleep $SLEEP;
    done
    ## L'autre sitemap sinon vous virez ça
    for i in `curl $SMB | grep "<loc>" | cut -d ">" -f 2 | cut -d "<" -f 1`;
    do
            wget $i -nv -O /tmp/precache.tmp >> /var/log/precache.log;
            echo "$i" >> /var/log/precache.log
            sleep $SLEEP;
    done
    rm /tmp/precache.tmp
    Voilà, pour du memcache, c'est plutôt pas mal, perso je le lance après chaque purge de mon cache.
     
  2. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 413
    J'aime reçus:
    0
  3. milkiway
    milkiway WRInaute accro
    Inscrit:
    3 Février 2004
    Messages:
    4 237
    J'aime reçus:
    0
    Merci Julia41 mais quelle utilité par rapport à une solution wget ? Et par rapport à un wget -i avec une liste d'URL ?
     
  4. Julia41
    Julia41 WRInaute passionné
    Inscrit:
    31 Août 2007
    Messages:
    1 779
    J'aime reçus:
    0
    Aucun, mais je pense que la plupart des membres de WRI (référencement) auront un sitemap plutôt qu'une liste d'URL.
    Ca permet de :
    je génère mon sitemap par xx méthodes à minuit. Je lance le script à minuit 10.
     
Chargement...
Similar Threads - Sitemap crawler pré Forum Date
Sitemap et maintenance Crawl et indexation Google, sitemaps Hier à 18:03
Search Console Sitemap lu mais certaines pages non indexées ? Crawl et indexation Google, sitemaps 23 Novembre 2020
Faut-il déclarer le sitemap dans le robots.txt ou search console ? Crawl et indexation Google, sitemaps 17 Octobre 2020
Faut-il créer un sitemap mobile ? Crawl et indexation Google, sitemaps 6 Octobre 2020
Gestion sitemap.xml sur un site multilingue Crawl et indexation Google, sitemaps 5 Octobre 2020
Sitemap et site multilangue Crawl et indexation Google, sitemaps 21 Août 2020
WordPress Sitemap site multilangue / yoast / polylangue Référencement international (langues, pays) 7 Août 2020
Search Console Sitemaps non indéxés ""Impossible de recuperer le sitemap" Crawl et indexation Google, sitemaps 23 Juillet 2020
Mise à jour simultanée sitemap/canonical/hreflang Crawl et indexation Google, sitemaps 16 Juillet 2020
Search Console Google n'explore pas les liens du sitemap (de desindexation) Crawl et indexation Google, sitemaps 6 Juillet 2020