Furieux : Archives.org passe outre toutes les restrictions

nantesweb

WRInaute discret
Bonjour,

Comme certains (Bollywood fait bloquer le site en Inde) je n'apprécie pas du tout Archive.org. Clairement ils s'assoient sur le droit d'auteur et pompe à tout va no sites web.

Il y avait un script qu'ils avaient proposé il y plus de 5 ans à mettre dans robots.txt, on s'est aperçu rapidement que ce script n' a pas marché très longtemps :

User-agent: ia_archiver
Disallow: /

User-agent: archive.org_bot
Disallow: /

User-agent: ia_archiver-web.archive.org
Disallow: /

Donc certains ont eu l'idée de bloquer carrément le moteur dans le htaccess et ça a marché !

# BANNISSEMENT DE ARCHIVE.ORG ET WAYBACK MACHINE
RewriteEngine on
SetEnvIfNoCase User-Agent ^archive.org_bot bad_bot
SetEnvIfNoCase User-Agent ^ia_archiver bad_bot
SetEnvIfNoCase User-Agent ^ia_archiver-web.archive.org bad_bot
Deny from env=bad_bot


JUSQU'À DÉCEMBRE 2021 !!!!!

Je viens de me rendre compte qu'ils ont recommencé à passé outre et qu'ils recommencent à pomper mes sites.

Quelqu'un à une idée ou un script pour les bloquer ??

Alors je ne veux pas parler de la procédure manuelle qui est de les contacter que j'ai déjà employé 5 fois et qui est ultra ch... (il faut faire une copy d'un email juridique en anglais pour les astreindres à le virer dans le cadre des données informatiques...) pour leur demander de virer des sites, ça marche mais je veux le faire aussi pour mes clients de façon automatique, donc pas à la main.

Merci d'avance si vous avez des tuyaux. Je sais qu'il y avait un script qui bloquaient carrément leurs adresses IPs, je l'avais mais je l'ai pas retrouvé.
 

nantesweb

WRInaute discret
Bon je viens de voir une méthode qui a marché en 2017 sur ce ce lien :

Comme on lui demandait carrément sa carte ID pour vérifier son identité pour savoir s'il était bien propriétaire du site (bonjour où on en est rendu !), le gars à :

  1. Envoyé un email à info [hâte] archive point org
  2. Envoyé le lien d'une page html qu'il a rajouté à la racine de son domaine : wayback-removal-request.html dans laquelle il dit clairement :
    <p>Hello,</p>

    <p>Can you remove my website from the Wayback Machine?</p>

    <p>Thanks!</p>
    <p>Dimitar</p>

Et apparament ça a marché.

Je vais tenter de même que l'installation d'un script supplémentaire dans le Htaccess qui semblait intégrer le blocage de Archive (source 2016) : 7G Firewall que je viens de découvrir.


Il semble que d'autres sites Archives font la même chose dont archive . IS (2012) devenu archive . Today
Ils en parlent sur ce fil et proposent des IPs à bloquer dans Htaccess ce que je vais faire de suite

J'ai créé un script à partir des IPs proposés trois fois (ils proposent 3 scripts htaccess sucessifs) auquel j'ai rajouté les IPs qu'un utilisateur à identifié dans le bas de la discussion
 
Dernière édition:

nantesweb

WRInaute discret
En 2017 Numerama publie un article dans laquelle le mag dit que Archive "durcit" sa politique de pompage parce qu'il y aurait des "abus" (en gros ceux qui refusent de se faire pomper leur site sans leur accord). Du coup ils disent ouvertement qu'ils passent outrent les restrictions mises en place ! Le droit d'auteur et le consentement à la poubelle pendant qu'en même temps ils se font les chevaliers blancs de la Privacy et de la RGPD, quel cynisme.

https://www.numerama.com/tech/25232...web-internet-archive-durcit-ses-methodes.html

Le monde à l'envers !
 
Dernière édition:

nantesweb

WRInaute discret
Je viens également de mettre à jour mon Htaccess qui fait 1km de long. En faisant le tri (beaucoup de scripts de blocages en double) j'en ai profité pour aller mettre à jour celui là :
https://pastebin.com/BPRv4TDd

Il contient des occurences semble t-il à archive.org. Alors il faut savoir que le bot Archive IA est en fait un truc utilisé par Alexa, mais çe me pose aucun problème, j'aime pas non plus !
 

rick38

WRInaute passionné
Ca ne pose aucun problème d'être "pompé" par archive.org, c'est un archivage, non lucratif, pour permettre de retrouver des anciennes versions des pages, ça ne concurrence pas vos sites !
Au contraire c'est un bienfait pour l'humanité.
 

nantesweb

WRInaute discret
C'est ton avis. Je suis pas sûr qu'on est consulté les créateurs de sites pour savoir s'ils étaient d'accord. Je crois que t'aurais été surpris du sondage.

Quand j'annonce ça à mes clients ils sont TOUS scotchés et en colère !

Mais l'objet ici n'est pas de savoir si on est pour ou contre. La liberté c'est aussi d'avoir le droit d'être contre sans qu'on est à se justifier, sinon on est dans la tyranie du "bien" et comme dit Albert Camus :
Le bien être du peuple à toujours été l'alibi des tyrans.

Et il est loin d'avoir tord...
 
Dernière édition:

UsagiYojimbo

WRInaute accro
Je suis du même avis que rick38, étant moi même développeur et intégrateur de site. Pour avoir mis qui plus est la touche finale à l'écriture d'un bouquin, archive.org m'a été d'une utilité folle (pour pouvoir remonter aux vrais sources des informations sur lesquelles je m'appuient, et vérifier qu'elles n'avaient pas été distordues par la traduction ou le temps).

Après, si j'avais à bloquer un outil de ce type, je regarderais au niveau des logs. Le deny par User Agent me semble être l'approche la plus adaptée, pour peux que les User Agent sur lesquels tu te base sont les bons (a regarder au niveau des logs).
 

kristel

WRInaute impliqué
Pour ma part, je partage entièrement l'avis rick38.

Ayant vérifié ce qu'il en était chez archive.org pour un site de presse payant, je vois que seul le texte public des articles est archivé. A première vue, les droits d'auteur semblent donc respectés.

De plus, au contraire de sites qui pillent le contenu d'autres sites, archive.org ne vient pas concurrencer les sites copiés dans les SERPs

Pour le reste, archive.org remplit une fonction d'intérêt public, utile à la collectivité.
 

Marie-Aude

WRInaute accro
J'ai récupéré des centaines d'urls "perdues" grâce à archive.org, je m'en sers aussi pour prouver l'antériorité de mes textes pompés par d'autres (et je rappelle que archive.org est maintenant accepté comme élément de preuve), c'est un vrai service public (et je donne des sous).

Vous ne voulez pas être sur archive.org ? Etes vous sûrs que vos sites seront encore en ligne dans 10 ans, 15 ans ?
 

Discussions similaires

Haut