La BNF archive...

Discussion dans 'Autres moteurs de recherche connus' créé par Digit, 23 Janvier 2005.

  1. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    441
    J'aime reçus:
    1
    Bonjour,

    J'ai constaté que la BNF (Bibliothèque Nationale de France) a effectué un partenariat avec archive.org et a débuté un archivage des sites français.
    Extrait des logs afin d'identifier l'empreinte :
    Code:
    207.241.234.209 - - [22/Jan/2005:16:16:57 +0100] "GET / HTTP/1.0" 200 32945 "-" "mozilla/5.0 (compatible; heritrix//1.3.0-200412151053 +http://crawls.archive.org/collections/bnf/crawl.html)" mod_gzip: DECLINED:NO_ACCEPT_ENCODING In:0 Out:0:0pct.
    
    A noter :
    • Le crawl est lent
      il respecte le robots.txt
      dès qu'une page est accédée, ses éléments graphiques sont récupérés

    Pour en savoir plus :
    http://bibnum.bnf.fr/robot/
     
  2. soccarfr
    soccarfr Nouveau WRInaute
    Inscrit:
    1 Septembre 2004
    Messages:
    43
    J'aime reçus:
    0
    ce robot est completement idiot, il a suivit les liens de mes formulaires, faisant par la même des grosse betises sur mon site
     
  3. Haq
    Haq WRInaute passionné
    Inscrit:
    29 Août 2002
    Messages:
    1 654
    J'aime reçus:
    0
    Si c'est possible, c'est à toi que tu dois t'en prendre... tu dois faire en sorte qu'un robot ne puisse pas influer sur le contenu de tes sites (sinon, je ne te parle même pas de ce que pourrait faire le robot d'adsense sur ton site... lui il a accès à absolument toutes les urls que tes visteurs voient/créent pour peu que tu y affiches leur pub).
     
  4. cadix
    cadix Nouveau WRInaute
    Inscrit:
    14 Mars 2005
    Messages:
    11
    J'aime reçus:
    0
    Est ce que les résultats sont visibles quelque part que le site de la BNF ?
     
  5. tuisp
    tuisp WRInaute passionné
    Inscrit:
    27 Juin 2003
    Messages:
    1 169
    J'aime reçus:
    0
    Cet archivage s'effectue dans le cadre de la nouvelle loi sur le dépôt légal en préparation comme l'indique le lien donné par Digit. Les pages collectées ne seront a priori pas consultables ailleurs que dans les locaux de la BnF, voir http://www.bnf.fr/pages/infopro/depotle ... ommuniquer
     
  6. cadix
    cadix Nouveau WRInaute
    Inscrit:
    14 Mars 2005
    Messages:
    11
    J'aime reçus:
    0
    C'est un peu dommage.
    Mais j'imagine que c'est à cause de problèmes de copyright
     
  7. tuisp
    tuisp WRInaute passionné
    Inscrit:
    27 Juin 2003
    Messages:
    1 169
    J'aime reçus:
    0
    C'est cela. Le fait que l'état des sites à certains moments de leur histoire soit *reproduit* a pour conséquence que les reproductions entrent dans le champ de la Directive européenne de 2001 et donc que la seule exception autorisée limite la possibilité de consulter ces reproductions aux locaux des organismes dépositaires du dépôt légal. C'est ce qui est expliqué dans la page Web dont j'ai donné le lien un peu plus haut.
     
  8. Julia41
    Julia41 WRInaute passionné
    Inscrit:
    31 Août 2007
    Messages:
    1 779
    J'aime reçus:
    0
    Bon, pareil je viens de me faire crawler par ce bot (avec un autre UA):
    Code:
    194.199.7.22 admin-serv.net - [07/Apr/2011:22:35:12 +0200] "GET /blog/610/pleskcentos-installer-ncftp-en-utilisant-yum-a-laide-des-depots-epel/ HTTP/1.0" 200 9528 "https://admin-serv.net/blog/" "Mozilla/5.0 (compatible; bnf.fr_bot; +http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html)"
    
    Je trouve toutefois bizarre qu'il soit en HTTP/1.0.

    Leur page d'explication est assez "bizarre", je vois pas en quoi mon site devrait être stocké quelque part.
     
  9. JanoLapin
    JanoLapin WRInaute accro
    Inscrit:
    21 Septembre 2008
    Messages:
    4 250
    J'aime reçus:
    0
    et la BNF se sent une vocation modianle d'archivage.. ou bien la loi française ne va s'appliquer qu'aux citoyens en France.

    Comment ce robot compte-t-il faire la différnece ? Quel est le rôle des extensions?
     
  10. Julia41
    Julia41 WRInaute passionné
    Inscrit:
    31 Août 2007
    Messages:
    1 779
    J'aime reçus:
    0
    C'était un peu ma question, mon contenu est très "mâché" pour un robot je pense (beaucoup de termes anglophones) après peut-être que la CNIL a partagé ses données de sites enregistrés.
     
  11. JanoLapin
    JanoLapin WRInaute accro
    Inscrit:
    21 Septembre 2008
    Messages:
    4 250
    J'aime reçus:
    0
    Qq précisions supplémentaires de la BnF sur son bot:

    * sites en FR (partenarriat avec l'Afnic)
    * utilise le robots Heritrix (le même qu'archives.org, dont il utilise une des signatures (c'est très con !)
    * il respecterait les instructions du robots.txt

    Le choix des sites dotés de l'extension .fr c'est très subjectif. Cela peut très bien être le site de quelqu'un à l'étranger (une marque, etc..). Inversement, un site français peut-être doté d'une autre extension, sans être concerné par cette histoire.

    C'est super, d'un côté la justice ne reconnaît pas archives.org comme preuve, ni même (je crois) comme commencement de preuve. Et à côté de cela elle s'en sert pour faire respecter une obligationq u'elle a créée elle-même: le dépôt à la BnF.


    On ne marcherait pas un peu sur la tâte là?
     
  12. PascalP37
    PascalP37 Nouveau WRInaute
    Inscrit:
    21 Novembre 2012
    Messages:
    1
    J'aime reçus:
    0
    Pas de respect pour le robots.txt

    Protocole robot.txt
    En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé protocole robots.txt. Ce protocole vise à optimiser l’activité des robots d’indexation utilisés par les moteurs de recherche, en filtrant les contenus non textuels et/ou non indexables (fichiers binaires comme images, sons ou vidéos ; feuilles de style ou fichiers d’administration du site Web).
    Afin d’accomplir sa mission de dépôt légal, la BnF peut choisir de capturer certains des fichiers concernés par le robots.txt, quand ceux-ci sont nécessaires pour reconstituer la forme éditoriale du site (dans le cas notamment des fichiers image ou feuille de style). Ce non-respect du robots.txt n’entre pas en conflit avec la protection de la correspondance privée garantie par la loi, car toutes les données mises à la disposition sur l'Internet sont considérées comme publiées, qu’elles soient ou non filtrées par le robots.txt.
     
Chargement...
Similar Threads - BNF archive Forum Date
La BNF négocie avec Google une numérisation de ses archives Google : l'entreprise, les sites web, les services 18 Août 2009
Microsoft La BNF adopte Bing Le café de WebRankInfo 8 Octobre 2010
Comment archiver des discussions dans Google Groupes ? Google : l'entreprise, les sites web, les services 7 Mars 2019
RGPD et Archive Droit du web (juridique, fiscalité...) 25 Mai 2018
Ancienneté du Whois ou celle de Archives.org ? Noms de domaine et référencement 3 Mai 2017
Contenu dupliqué, page1, page2, archives, etc. Débuter en référencement 19 Avril 2017
Archive .rar quand clic depuis Google = site injoignable Développement d'un site Web ou d'une appli mobile 14 Mars 2017
Archives de google et contenu dupliqué ? Référencement Google 30 Juin 2016
Problème IMAP pour retrouver les archives Administration d'un site Web 16 Juin 2016
Organisation d'archives Débuter en référencement 22 Mars 2016
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice