Projet : Crawler de site pour mise en cache chez Fasterize

Discussion dans 'Développement d'un site Web ou d'une appli mobile' créé par xelp, 7 Septembre 2017.

  1. xelp
    xelp Nouveau WRInaute
    Inscrit:
    21 Octobre 2016
    Messages:
    40
    J'aime reçus:
    0
    Hello à tous,

    Un de mes sites (sous prestashop) utilise actuellement le système de mise en cache de Fasterize. Cela permet de décharger considérablement mon serveur et permet donc un chargement beaucoup plus rapide des pages.

    Toutes fois, dès qu'une modification est effectuée sur le site, je dois procéder à une remise en cache des URLs concernées en appelant l'URL via une API proposée par Fasterize avec quelques paramètres.

    Cette procédure est actuellement manuelle et très lourde à gérer. J'aimerais pouvoir créer un Crawler qui va donc parcourir tout mon site, en extraire toutes les URLs. Elles seront alors stockées dans une BDD ou encore dans un CSV avec quelques champs comme l'URL, la date, la réponse de l'API. L'étape suivante s'est d'appeler les URLs, avec différents useragent (iPhone, Mozilla/5.0).

    Enfin, on pourra aussi optimiser le programme afin par exemple de :

    - ne remettre en cache qu'une liste données d'URLs (fournies depuis un CSV)
    - ne remettre en cache que les URLs pour un useragent
    - ne remettre en cache que les nouvelles URLs
    - ne remettre en cache que les URLs qui ont retourné une erreur
    - création de stats

    Je n'ai encore jamais fait ce type de programme et ne sait pas par quoi commencer.
    Avez vous des idées, pistes svp ?

    Merci
     
  2. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    8 779
    J'aime reçus:
    240
    Pistes:
    - https://scrapy.org/
    - https://doc.ubuntu-fr.org/wget
    - https://buzut.fr/comment-creer-un-crawler-web-en-php/
    - http://subinsb.com/how-to-create-a-simple-web-crawler-in-php
    - https://murze.be/2015/11/building-a-crawler-in-php/
    - [...]

    NB: C'est dommage de devoir crawler pour mettre en cache. De plus il y a moyen d'optimiser en mettant du cache en amont (c-à-d pas uniquement l'output).
    A peu près tout ce que fait Fasterize est faisable avec Webpack/Gulp/...

    Src: https://twitter.com/codinghorror/status/506010907021828096

    C'est vrai que ton site https://www.rolleco.fr/ est super rapide
     
  3. xelp
    xelp Nouveau WRInaute
    Inscrit:
    21 Octobre 2016
    Messages:
    40
    J'aime reçus:
    0
    Merci =)

    Je me penchait justement sur Scrapy pour un autre dossier, ayant en plus quelques VM sous Vagrant et Python sur ma station ça pourrait peut être le faire. Cela semble assez puissant et offre de nombreuses possibilités pour la création de bases de données mais pas que [...]

    Concernant le parcours total du site, c'est en effet dommage et c'est pour cela que j'ai créé un petit export des pages nécessitant une mise en cache. Par exemple : les produits modifiés récemment. Un crawl complet surchargera le site et représente une perte de temps.
     
Chargement...
Similar Threads - Projet Crawler cache Forum Date
Projet de crawler Crawl et indexation Google, sitemaps 25 Septembre 2013
Dotclear - projet communautaire open-source a besoin de vous Développement d'un site Web ou d'une appli mobile 29 Juin 2017
Pétition SaveTheLink contre un projet de l'Europe de taxe sur les liens Internet Le café de WebRankInfo 21 Janvier 2017
Que fait un chef de projet seo chez l'annonceur ? Débuter en référencement 21 Juillet 2016
Outils de CRM ? Outils de gestion de projets ? Le café de WebRankInfo 20 Avril 2016
Demande d'avis sur un projet de blog Demandes d'avis et de conseils sur vos sites 2 Février 2016
Participez au projet de loi numérique, RDV demain Paris e-commerce 15 Octobre 2015
finalisation d'un projet Droit du web (juridique, fiscalité...) 15 Octobre 2015
CMS de gestion de projets Administration d'un site Web 21 Juillet 2015
Projet de loi sur le renseignement : les principaux hébergeurs français se rebiffent Le café de WebRankInfo 11 Avril 2015
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice