Intérêts et inconvénients de Internet Archive

Discussion dans 'Développement d'un site Web ou d'une appli mobile' créé par benachem, 23 Juin 2009.

  1. benachem
    benachem WRInaute occasionnel
    Inscrit:
    2 Mai 2009
    Messages:
    276
    J'aime reçus:
    0
    Bonjour,

    Vous avez certainement déjà vu quelque part dans vos statistique ce petit robot qui s'affiche : User-agent: ia_archiver

    C'est le robot d'Internet Archive, le site américain qui s'est donné pour mot d'ordre d'archiver internet. Outre le fait qu'archiver internet et des sites sans l'accord préalable des auteurs est à 100% illégal ( seules les institutions publiques peuvent procéder au dépot légal, et encore, elles n'ont pas le droit de rediffusion et de publication ), quels intérêts avez vous à vous faire archiver par ce site ? Ce site réalise plusieurs images ( plusieurs sauvegardes différentes à intervalles de temps différents )

    En ce qui me concerne plutôt des inconvénients :
    _ déjà si on vend la consultations de ses propres archives, si elles peuvent être librement accessibles ailleurs, cela peut poser problème.
    _ d'autre part, la consommation d'une bande passante très importante

    Moi, je n'y vois que des inconvénients : vol et exploitation de contenu, et surtout surcharge serveur.

    Au passage, on y retrouve les copies conformes de sites illégaux, du genre pédophilie, racisme, et qui ont été supprimés suites à des poursuites légales.

    Donc voilà, qu'est ce que peut bien apporter ce robot en terme de référencement ? le supprimer va t'il fait baisser le nombre de visiteurs ? je ne vous vraiment pas où sont les intérêts d'un tel robot, vu qu'il n'apporte rien en visite.
     
  2. fabor
    fabor WRInaute discret
    Inscrit:
    17 Mars 2005
    Messages:
    122
    J'aime reçus:
    0
    regarde dans tes stats si il t'amene des visiteurs. Si ce n'est pas le cas bloque le, si ca ne represente pour toi que des inconvenients. Le but de ce site est de garder une "petite" trace des données très volatiles que sont les pages web mais cela me semble vaint et parfois, effectivement génant pour certains webmasters.
     
  3. dmathieu
    dmathieu WRInaute accro
    Inscrit:
    9 Janvier 2004
    Messages:
    5 596
    J'aime reçus:
    0
    - Niveau bande passante, un robot qui passe sur chacune de tes pages une fois tous les 6 mois, je vois pas en quoi c'est consommateur.
    Si tu veut faire des économies à ce niveau, interdit l'accès à Google Bot. Il est énormément plus consommateur.

    - Niveau pages à ne pas indexer, tu n'a qu'à utiliser le robots.txt. Il ne devrait pas les indexer.
     
  4. greatpatton
    greatpatton WRInaute discret
    Inscrit:
    3 Avril 2006
    Messages:
    121
    J'aime reçus:
    0
    Enfin bon de nombreuses bibliothèques utilisent les services de l'internet Archive pour leur travail de conservation (qui on le rappel possède des dérogations dans le droit d'auteur, y compris aux USA ou ce site est basé).

    De plus j'ai un peu de peine à voir le problème car l'IA ne présente que les vieilles version d'un page et encore pas toutes et renvoie vers le site pour les pages à jour. A moins de croire que les gens adorent voir des pages obsolètes sur un site très lent à la place de voir l'original 8O
     
  5. benachem
    benachem WRInaute occasionnel
    Inscrit:
    2 Mai 2009
    Messages:
    276
    J'aime reçus:
    0
    Tout dépend du site. Pour des sites volumineux et très fréquenté, il arrive que Internet Archive produise 1 image ( 1 image = 1 sauvegarde de site ) tous les jours.
    Si tu as un peu près 150000 pages, mises fréquemment en archive tous les jours, ce n'est pas négligeable, surtout en terme d'économie sur un dédié. ( pour loger d'autres sites par exemple )

    Pour de petits sites, certains sont pas du tout archivés, d'autres peu. Pour des sites moyen, ils sont plus archivés, et pour des sites volumineux, on sent la charge.

    Google m'apporte quelque chose, c'est un atout, Internet Archive ne m'apporte rien, c'est une gêne.

    User-agent: ia_archiver
    Disallow: /

    Ce qui donne : We're sorry, access to ****** has been blocked by the site owner via robots.txt

    De manière général, on peut aussi glisser dans les méta :
    <meta name="Robots" content="noarchive" />
    <meta http-equiv="Pragma" content="no-cache" />

    Justement, au niveau des stats, cela ne donne rien. Même sur des sites volumineux, cela ne donne rien, il n'y a donc aucun intérêt pour un webmaster à laisser son site sur Internet Archive.

    Oui, mais Internet Archive n'est pas une institution légale, et quand bien même elle le serait, elle ne pourrait conserver, c'est à dire faire usage du dépôt légal, qu'au niveau des sites appartenant à des personnes, physiques comme morales, résidant ou siégeant dans son pays.

    Ensuite, le dépôt légal consiste à reproduire sur des supports, et non pas à publier ou diffuser les documents. Les bibliothèques, les centres de recherche, utilisent l'archivage pour leur travail personnel, non pas en vue de rediffuser les documents sources, mais en vue de mener un travail de recherche, scientifique, pour produire des travaux universitaires que des chercheurs s'échangent. Ici, Internet Archive rediffuse publiquement les documents, même avec 6 mois ou 1 année de retard, mais il rediffusent. Ceci est 100% illégal.

    Le mieux, c'est de parler en chiffre, y a que le chiffre qui convainc.
    Un document peut rapporter de diverses manières : les finances - les gains
    Les finances : régies publicitaires ( le plus répandu ) - l'abonnement payant - le système de don
    Les gains : Selon des statistiques menées depuis ces derniers mois, que j'ai effectuées, mais aussi que d'autres collègues ont menées, on a distingué trois phases de gain : la prime fraîcheur - la consultation en archive gratuite - la consultation en archive payante.

    la prime fraîcheur : le pic de fréquentation d'un document arrive au moment de sa publication ( avec parfois une latence de 2 à 3 jours ), sauf certaines exceptions ( des fois, certains événements vont faire qu'un document, vieux de 2 ans par exemple, connaîtra un nouveau pic de fréquentation )

    la prime fraîcheur sur un document à moindre investissement : elle est rentabilisée très rapidement avec le système publicitaire
    la prime fraîcheur sur d'important documents est amortie par la publicité, et s'il y a forte notoriété, l'abonnement est une ressource supplémentaire.

    la consultation en archive gratuite : c'est une suite de documents qui ont été produits au fil du temps, qu'on laisse accessibles, et qui sont financés par les régies publicitaires.

    Voici une expérience récente avec des résultats étonnants : la consultation payante des archives. Sur plus de 20000 documents mis en archive payante, j'arrive à dégager en mois de 2 semaines 5000 euros par semaine de recette . Coté investissements, j'ai bossé à peu près une journée le temps de programmer un accès payant sur les archives ; après, j'ai juste eu à sélectionner les dossiers en accès payant pour les archives. C'est un faible investissement pour réexploiter un travail de 3 années.

    Donc, je m'aperçois qu'il y a un potentiel d'exploitation des archives, consultés notamment par des entreprises chargées de mener des études de marché. Quand je vois le potentiel qu'on peut exploiter à partir des archives, je suis bien content de partir à la chasse aux plagieurs, mais d'autre part, je verrais d'un très mauvais oeil qu'un site comme Internet Archive mette en consultation publique les archives en question. Si la consultation des archives peut être payante et qu'on peut en tirer un bénéfice, et si un site comme internet archive commence à publier gratuitement les dites archives alors là il y a un cas authentique de contrefaçon, puisqu'il s'agît d'un préjudice économique plus que flagrant.

    Quand tu as bossé pendant 3 années consécutives, à un rythme effreiné, sans arrêt, en devant t'organiser pour ne pas passer uniquement ton temps à certaines publications mais à d'autres projets, que désormais on peut en récolter le fruit ( il y a quelques mois de cela, il y eu l'étape de la mise en place des abonnements, et je suis de très loin à pouvoir m'en plaindre, bien au contraire les résultats vont bien au delà de ce qui avait été prévu ; ensuite la mise en place de la consultation payante des archives ), et que je vois un site comme internet archive qui puise dans les ressources serveurs, et qui représente une menace à un commerce parfaitement légal, alors je ne me pose aucune question sur l'utilité dite publique de internet archive ou des bibliothèques qui travaillent avec internet Archive. J'emm**** internet archive, tous les sites d'archivage, tous les sites qui présentent un double sous forme de cache, tous les partenaires qui me demandent d'offrir des consultations gratuites alors que celles-ci sont payantes, et tous les fonctionnaires de centres de recherche ou autre rats de bibliotheque qui veulent recréer de nouvelles compilations électroniques. Je construis une entreprise, je paie mes impôts, je vais même engager du personnel et offrir du boulot à des gens qui galèrent, ce dont je ne pensais même pas pouvoir faire il y a encore cela quelques mois.

    Face à ce constat, face au même constat par exemple sur le journal "le monde " qui fait payer ses archives et ne figure pas sur Internet Archive, face aux mêmes constats que je vois sur plein d 'autres sites, je me demande, et je le répète auprès de la communauté des webmasters :

    Avez vous vraiment l'impression ( je parle de Vous, pour moi l'affaire est réglée ) que Internet Archive vous apporte quelque chose ?

    Consultez vos refferers et regardez si vous avez des visiteurs en provenance de Internet archive.
     
  6. dmathieu
    dmathieu WRInaute accro
    Inscrit:
    9 Janvier 2004
    Messages:
    5 596
    J'aime reçus:
    0
    Oui, mais si tu a ce trafic venant de IA, comme tu le dis toi même, c'est parce que tu a déjà énormément de trafic "normal".
    Donc de toute façon, tu n'a pas d'autres sites sur ton dédié. Et IA est perdu dans la masse.
     
Chargement...
Similar Threads - Intérêts inconvénients Internet Forum Date
Récapitulatif Bonnes Causes : sites d'intérêts publics Le café de WebRankInfo 23 Décembre 2017
Comment ajouter un établissement aux centres d'intérêts des gps ? Noms de domaine et référencement 7 Décembre 2017
Affichage des points d'interets sur Google Maps / Google Places API YouTube, Google Images et Google Maps 21 Juillet 2015
Mailing : quels interets ? Administration d'un site Web 27 Août 2010
Google client d'AdWords = conflit d'intérêts AdWords 20 Août 2010
Reproduction illicite des dépêches de l’AFP : 90 000 euros de dommages et intérêts Droit du web (juridique, fiscalité...) 16 Mars 2010
[référenceurs] comment gérez-vous les conflits d'intérêts? Référencement Google 17 Janvier 2008
intérets de se linker avec un site dynamique Débuter en référencement 12 Février 2007
Les Tags quels sont leur intérêts ? Débuter en référencement 13 Juin 2006
Topic bonnes Causes : sites d'intérêts publics Le café de WebRankInfo 9 Janvier 2006
Avantages et inconvénients de l'AMP Débuter en référencement 24 Août 2017
avantages et inconvénients de wordpress ou équivalent Développement d'un site Web ou d'une appli mobile 12 Janvier 2016
Hosting au brésil chère, seo avantages inconvénients Référencement Google 2 Mai 2013
Inconvénients mettre 1 produit dans 2 catégories (e-commerce) Débuter en référencement 22 Janvier 2013
Avantages / inconvenients Sous domaine ou Nouveau domaine Débuter en référencement 26 Avril 2012
Communiqués de presse : avantages, inconvénients ? Débuter en référencement 22 Septembre 2011
Changement de ndd pour ma boutique eCommerce : avantages/inconvénients ? Débuter en référencement 1 Mars 2011
Url sans extension : quels avantages, quels inconvénients ? Rédaction web et référencement 7 Mai 2010
Inconvénients des sites gratuits Problèmes de référencement spécifiques à vos sites 29 Avril 2010
Les inconvénients des sous-domaines pour le référencement Débuter en référencement 17 Février 2010