Intérêts et inconvénients de Internet Archive

  • Auteur de la discussion Auteur de la discussion benachem
  • Date de début Date de début
WRInaute occasionnel
Bonjour,

Vous avez certainement déjà vu quelque part dans vos statistique ce petit robot qui s'affiche : User-agent: ia_archiver

C'est le robot d'Internet Archive, le site américain qui s'est donné pour mot d'ordre d'archiver internet. Outre le fait qu'archiver internet et des sites sans l'accord préalable des auteurs est à 100% illégal ( seules les institutions publiques peuvent procéder au dépot légal, et encore, elles n'ont pas le droit de rediffusion et de publication ), quels intérêts avez vous à vous faire archiver par ce site ? Ce site réalise plusieurs images ( plusieurs sauvegardes différentes à intervalles de temps différents )

En ce qui me concerne plutôt des inconvénients :
_ déjà si on vend la consultations de ses propres archives, si elles peuvent être librement accessibles ailleurs, cela peut poser problème.
_ d'autre part, la consommation d'une bande passante très importante

Moi, je n'y vois que des inconvénients : vol et exploitation de contenu, et surtout surcharge serveur.

Au passage, on y retrouve les copies conformes de sites illégaux, du genre pédophilie, racisme, et qui ont été supprimés suites à des poursuites légales.

Donc voilà, qu'est ce que peut bien apporter ce robot en terme de référencement ? le supprimer va t'il fait baisser le nombre de visiteurs ? je ne vous vraiment pas où sont les intérêts d'un tel robot, vu qu'il n'apporte rien en visite.
 
WRInaute discret
regarde dans tes stats si il t'amene des visiteurs. Si ce n'est pas le cas bloque le, si ca ne represente pour toi que des inconvenients. Le but de ce site est de garder une "petite" trace des données très volatiles que sont les pages web mais cela me semble vaint et parfois, effectivement génant pour certains webmasters.
 
WRInaute accro
- Niveau bande passante, un robot qui passe sur chacune de tes pages une fois tous les 6 mois, je vois pas en quoi c'est consommateur.
Si tu veut faire des économies à ce niveau, interdit l'accès à Google Bot. Il est énormément plus consommateur.

- Niveau pages à ne pas indexer, tu n'a qu'à utiliser le robots.txt. Il ne devrait pas les indexer.
 
WRInaute discret
Enfin bon de nombreuses bibliothèques utilisent les services de l'internet Archive pour leur travail de conservation (qui on le rappel possède des dérogations dans le droit d'auteur, y compris aux USA ou ce site est basé).

De plus j'ai un peu de peine à voir le problème car l'IA ne présente que les vieilles version d'un page et encore pas toutes et renvoie vers le site pour les pages à jour. A moins de croire que les gens adorent voir des pages obsolètes sur un site très lent à la place de voir l'original 8O
 
WRInaute occasionnel
kazhar a dit:
- Niveau bande passante, un robot qui passe sur chacune de tes pages une fois tous les 6 mois, je vois pas en quoi c'est consommateur.

Tout dépend du site. Pour des sites volumineux et très fréquenté, il arrive que Internet Archive produise 1 image ( 1 image = 1 sauvegarde de site ) tous les jours.
Si tu as un peu près 150000 pages, mises fréquemment en archive tous les jours, ce n'est pas négligeable, surtout en terme d'économie sur un dédié. ( pour loger d'autres sites par exemple )

Pour de petits sites, certains sont pas du tout archivés, d'autres peu. Pour des sites moyen, ils sont plus archivés, et pour des sites volumineux, on sent la charge.

kazhar a dit:
Si tu veut faire des économies à ce niveau, interdit l'accès à Google Bot. Il est énormément plus consommateur.

Google m'apporte quelque chose, c'est un atout, Internet Archive ne m'apporte rien, c'est une gêne.

kazhar a dit:
Niveau pages à ne pas indexer, tu n'a qu'à utiliser le robots.txt. Il ne devrait pas les indexer.

User-agent: ia_archiver
Disallow: /

Ce qui donne : We're sorry, access to ****** has been blocked by the site owner via robots.txt

De manière général, on peut aussi glisser dans les méta :
<meta name="Robots" content="noarchive" />
<meta http-equiv="Pragma" content="no-cache" />

fabor a dit:
regarde dans tes stats si il t'amene des visiteurs.

Justement, au niveau des stats, cela ne donne rien. Même sur des sites volumineux, cela ne donne rien, il n'y a donc aucun intérêt pour un webmaster à laisser son site sur Internet Archive.

greatpatton a dit:
Enfin bon de nombreuses bibliothèques utilisent les services de l'internet Archive pour leur travail de conservation (qui on le rappel possède des dérogations dans le droit d'auteur, y compris aux USA ou ce site est basé).

Oui, mais Internet Archive n'est pas une institution légale, et quand bien même elle le serait, elle ne pourrait conserver, c'est à dire faire usage du dépôt légal, qu'au niveau des sites appartenant à des personnes, physiques comme morales, résidant ou siégeant dans son pays.

Ensuite, le dépôt légal consiste à reproduire sur des supports, et non pas à publier ou diffuser les documents. Les bibliothèques, les centres de recherche, utilisent l'archivage pour leur travail personnel, non pas en vue de rediffuser les documents sources, mais en vue de mener un travail de recherche, scientifique, pour produire des travaux universitaires que des chercheurs s'échangent. Ici, Internet Archive rediffuse publiquement les documents, même avec 6 mois ou 1 année de retard, mais il rediffusent. Ceci est 100% illégal.

greatpatton a dit:
De plus j'ai un peu de peine à voir le problème car l'IA ne présente que les vieilles version d'un page et encore pas toutes et renvoie vers le site pour les pages à jour. A moins de croire que les gens adorent voir des pages obsolètes sur un site très lent à la place de voir l'original 8O

Le mieux, c'est de parler en chiffre, y a que le chiffre qui convainc.
Un document peut rapporter de diverses manières : les finances - les gains
Les finances : régies publicitaires ( le plus répandu ) - l'abonnement payant - le système de don
Les gains : Selon des statistiques menées depuis ces derniers mois, que j'ai effectuées, mais aussi que d'autres collègues ont menées, on a distingué trois phases de gain : la prime fraîcheur - la consultation en archive gratuite - la consultation en archive payante.

la prime fraîcheur : le pic de fréquentation d'un document arrive au moment de sa publication ( avec parfois une latence de 2 à 3 jours ), sauf certaines exceptions ( des fois, certains événements vont faire qu'un document, vieux de 2 ans par exemple, connaîtra un nouveau pic de fréquentation )

la prime fraîcheur sur un document à moindre investissement : elle est rentabilisée très rapidement avec le système publicitaire
la prime fraîcheur sur d'important documents est amortie par la publicité, et s'il y a forte notoriété, l'abonnement est une ressource supplémentaire.

la consultation en archive gratuite : c'est une suite de documents qui ont été produits au fil du temps, qu'on laisse accessibles, et qui sont financés par les régies publicitaires.

Voici une expérience récente avec des résultats étonnants : la consultation payante des archives. Sur plus de 20000 documents mis en archive payante, j'arrive à dégager en mois de 2 semaines 5000 euros par semaine de recette . Coté investissements, j'ai bossé à peu près une journée le temps de programmer un accès payant sur les archives ; après, j'ai juste eu à sélectionner les dossiers en accès payant pour les archives. C'est un faible investissement pour réexploiter un travail de 3 années.

Donc, je m'aperçois qu'il y a un potentiel d'exploitation des archives, consultés notamment par des entreprises chargées de mener des études de marché. Quand je vois le potentiel qu'on peut exploiter à partir des archives, je suis bien content de partir à la chasse aux plagieurs, mais d'autre part, je verrais d'un très mauvais oeil qu'un site comme Internet Archive mette en consultation publique les archives en question. Si la consultation des archives peut être payante et qu'on peut en tirer un bénéfice, et si un site comme internet archive commence à publier gratuitement les dites archives alors là il y a un cas authentique de contrefaçon, puisqu'il s'agît d'un préjudice économique plus que flagrant.

Quand tu as bossé pendant 3 années consécutives, à un rythme effreiné, sans arrêt, en devant t'organiser pour ne pas passer uniquement ton temps à certaines publications mais à d'autres projets, que désormais on peut en récolter le fruit ( il y a quelques mois de cela, il y eu l'étape de la mise en place des abonnements, et je suis de très loin à pouvoir m'en plaindre, bien au contraire les résultats vont bien au delà de ce qui avait été prévu ; ensuite la mise en place de la consultation payante des archives ), et que je vois un site comme internet archive qui puise dans les ressources serveurs, et qui représente une menace à un commerce parfaitement légal, alors je ne me pose aucune question sur l'utilité dite publique de internet archive ou des bibliothèques qui travaillent avec internet Archive. J'emm**** internet archive, tous les sites d'archivage, tous les sites qui présentent un double sous forme de cache, tous les partenaires qui me demandent d'offrir des consultations gratuites alors que celles-ci sont payantes, et tous les fonctionnaires de centres de recherche ou autre rats de bibliotheque qui veulent recréer de nouvelles compilations électroniques. Je construis une entreprise, je paie mes impôts, je vais même engager du personnel et offrir du boulot à des gens qui galèrent, ce dont je ne pensais même pas pouvoir faire il y a encore cela quelques mois.

Face à ce constat, face au même constat par exemple sur le journal "le monde " qui fait payer ses archives et ne figure pas sur Internet Archive, face aux mêmes constats que je vois sur plein d 'autres sites, je me demande, et je le répète auprès de la communauté des webmasters :

Avez vous vraiment l'impression ( je parle de Vous, pour moi l'affaire est réglée ) que Internet Archive vous apporte quelque chose ?

Consultez vos refferers et regardez si vous avez des visiteurs en provenance de Internet archive.
 
WRInaute accro
Tout dépend du site. Pour des sites volumineux et très fréquenté, il arrive que Internet Archive produise 1 image ( 1 image = 1 sauvegarde de site ) tous les jours.
Si tu as un peu près 150000 pages, mises fréquemment en archive tous les jours, ce n'est pas négligeable, surtout en terme d'économie sur un dédié. ( pour loger d'autres sites par exemple )
Oui, mais si tu a ce trafic venant de IA, comme tu le dis toi même, c'est parce que tu a déjà énormément de trafic "normal".
Donc de toute façon, tu n'a pas d'autres sites sur ton dédié. Et IA est perdu dans la masse.
 
Discussions similaires
Haut