La BNF archive...

WRInaute occasionnel
Bonjour,

J'ai constaté que la BNF (Bibliothèque Nationale de France) a effectué un partenariat avec archive.org et a débuté un archivage des sites français.
Extrait des logs afin d'identifier l'empreinte :
Code:
207.241.234.209 - - [22/Jan/2005:16:16:57 +0100] "GET / HTTP/1.0" 200 32945 "-" "mozilla/5.0 (compatible; heritrix//1.3.0-200412151053 +http://crawls.archive.org/collections/bnf/crawl.html)" mod_gzip: DECLINED:NO_ACCEPT_ENCODING In:0 Out:0:0pct.

A noter :
  • Le crawl est lent
    il respecte le robots.txt
    dès qu'une page est accédée, ses éléments graphiques sont récupérés

Pour en savoir plus :
http://bibnum.bnf.fr/robot/
 
S
suppr10380
Guest
ce robot est completement idiot, il a suivit les liens de mes formulaires, faisant par la même des grosse betises sur mon site
 
WRInaute passionné
soccarfr a dit:
ce robot est completement idiot, il a suivit les liens de mes formulaires, faisant par la même des grosse betises sur mon site

Si c'est possible, c'est à toi que tu dois t'en prendre... tu dois faire en sorte qu'un robot ne puisse pas influer sur le contenu de tes sites (sinon, je ne te parle même pas de ce que pourrait faire le robot d'adsense sur ton site... lui il a accès à absolument toutes les urls que tes visteurs voient/créent pour peu que tu y affiches leur pub).
 
WRInaute passionné
C'est cela. Le fait que l'état des sites à certains moments de leur histoire soit *reproduit* a pour conséquence que les reproductions entrent dans le champ de la Directive européenne de 2001 et donc que la seule exception autorisée limite la possibilité de consulter ces reproductions aux locaux des organismes dépositaires du dépôt légal. C'est ce qui est expliqué dans la page Web dont j'ai donné le lien un peu plus haut.
 
WRInaute passionné
Bon, pareil je viens de me faire crawler par ce bot (avec un autre UA):
Code:
194.199.7.22 admin-serv.net - [07/Apr/2011:22:35:12 +0200] "GET /blog/610/pleskcentos-installer-ncftp-en-utilisant-yum-a-laide-des-depots-epel/ HTTP/1.0" 200 9528 "https://admin-serv.net/blog/" "Mozilla/5.0 (compatible; bnf.fr_bot; +http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html)"

Je trouve toutefois bizarre qu'il soit en HTTP/1.0.

Leur page d'explication est assez "bizarre", je vois pas en quoi mon site devrait être stocké quelque part.
 
WRInaute accro
et la BNF se sent une vocation modianle d'archivage.. ou bien la loi française ne va s'appliquer qu'aux citoyens en France.

Comment ce robot compte-t-il faire la différnece ? Quel est le rôle des extensions?
 
WRInaute passionné
JanoLapin a dit:
et la BNF se sent une vocation modianle d'archivage.. ou bien la loi française ne va s'appliquer qu'aux citoyens en France.

Comment ce robot compte-t-il faire la différnece ? Quel est le rôle des extensions?

C'était un peu ma question, mon contenu est très "mâché" pour un robot je pense (beaucoup de termes anglophones) après peut-être que la CNIL a partagé ses données de sites enregistrés.
 
WRInaute accro
Qq précisions supplémentaires de la BnF sur son bot:

* sites en FR (partenarriat avec l'Afnic)
* utilise le robots Heritrix (le même qu'archives.org, dont il utilise une des signatures (c'est très con !)
* il respecterait les instructions du robots.txt

Le choix des sites dotés de l'extension .fr c'est très subjectif. Cela peut très bien être le site de quelqu'un à l'étranger (une marque, etc..). Inversement, un site français peut-être doté d'une autre extension, sans être concerné par cette histoire.

C'est super, d'un côté la justice ne reconnaît pas archives.org comme preuve, ni même (je crois) comme commencement de preuve. Et à côté de cela elle s'en sert pour faire respecter une obligationq u'elle a créée elle-même: le dépôt à la BnF.


On ne marcherait pas un peu sur la tâte là?
 
Nouveau WRInaute
Pas de respect pour le robots.txt

Protocole robot.txt
En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé protocole robots.txt. Ce protocole vise à optimiser l’activité des robots d’indexation utilisés par les moteurs de recherche, en filtrant les contenus non textuels et/ou non indexables (fichiers binaires comme images, sons ou vidéos ; feuilles de style ou fichiers d’administration du site Web).
Afin d’accomplir sa mission de dépôt légal, la BnF peut choisir de capturer certains des fichiers concernés par le robots.txt, quand ceux-ci sont nécessaires pour reconstituer la forme éditoriale du site (dans le cas notamment des fichiers image ou feuille de style). Ce non-respect du robots.txt n’entre pas en conflit avec la protection de la correspondance privée garantie par la loi, car toutes les données mises à la disposition sur l'Internet sont considérées comme publiées, qu’elles soient ou non filtrées par le robots.txt.
 
Discussions similaires
Haut