Veille automatique de sites web

Nouveau WRInaute
Bonjour,

Le projet suivant est-il légal: dans un espace sécurisé (login/password), fournir à l'abonné des informations récoltées automatiquement (par programme informatique spécifique) sur d'autres sites? L'idée est de constituer une veille multi-sites et automatique sur les offres d'emploi ou petites annonces d'une région. Les informations, c'est-à-dire le libellé des annonces (pas le contenu), seraient restituées sous forme de liens hypertextes avec l'intitulé du lien dans l'interface sécurise ou envoyées par email.
Si ce n'est pas légal, quelle est la différence avec ce type de logiciels: http://www.precisement.org/blog/Logiciels-de-veille.html

Merci par avance
 
WRInaute occasionnel
C'est à mon sens illégal, parce que tu exploite des données sans l'autorisation préalable de leurs auteurs.

Quand au lien que tu nous donnes, il y a une grande différence entre la récolte de données, et annoncer qu'une page a été mise à jour...
 
WRInaute occasionnel
Salut,

Je crois déjà avoir traité cette question en ce qui concerne un site qui voulait exploiter les informations d'autres sites immobiliers.

Je ne vais pas tout reprendre, ni ré-expliquer, ni même sortir tous les textes juridiques et toutes les preuves à l'appui ( si tu veux vraiment une étude approfondie au cas par cas, pour ton affaire, soit tu consultes un site de juriste, soit je vois cela en MP, et je ne dis pas que je ferrais gratis, désolé, soit tu arrives à trouver quelqu'un qui veuille bien faire tout le travail pour toi, ... soit tu fais comme tu veux, on est en démocratie après tout, chacun est libre de prendre des risques )

En fait, tu ne peux ni exploiter la base de donnée des autres sites, ni même leur contenu, là les sites peuvent t'opposer la protection de leurs oeuvres sur le champs de la propriété intellectuelle.
Par ailleurs, si des utilisateurs mettent eux mêmes du contenu dans les sites en question, tu ne peux pas aller récolter les données enregistrées pour deux principes :
- toujours le droit d'auteur, l'utilisateur qui est auteur d'un contenu quelque part là mis sur ce quelquepart, et non pas sur un autre site , ni sur le tien, et tu ne pourras ni le lui repprocher, ni reprendre ce qu'il a mis
- enfin, et cela est plus important, pour ce qui est des informations privées : si une personne affiche des données personnelles sur une petite annonce quelque part, sur un site, le webmaster d'un autre site ne peut pas aller recolter ces données personnelles pour les afficher sur son propre site.

En fait, pour que tu puisses réussir ce projet, je conseillerais deux tuyaux :
_ d'une part que les sites que tu obtiennes l'autorisation des sites que tu vas exploiter, où tu vas aller récolter les données
_ d'autre part, que ces sites informent leurs utilisateurs que les informations qu'ils vont enregistrer sur ces sites, elles seront reprises sur ton site.

Si ces sites te voient comme un concurrent,c ela va être difficile, alors essaie de créer un partenariat.



Enfin, concernant la question pour les logiciels de veille, cela me fait penser d'ailleurs à un plugin sur firefox. Il s'agit de logiciels qui t'avertissent qu'ils y eu des changements.
Le logiciel t'informe qu'à telle page il y a eu un changement, et c'est pratique pour les sites qui ne disposent pas de flux rss. cela étant, le logiciel n'a pas à récolter l'information pour le republier à partir d'un autre site.

Tout le problème vient de "récolter". A chaque fois on veut récolter.

Personnellement, et sans nommer les sites, je viens d'interdire 3 sites que je pourrais poursuivre, je dis "je peux", mais cela devrait très "chiant" de le faire, même si j'ai bien fait comprendre qu'ils prenaient des risques :
_ un site qui reprend des flux rss des autres sites, lui aussi il récolte les flux rss des autres sites, pour construire d'autres flux rss et les redistribuer à sa manière.
_ un autre site qui récoltait du flux rss pour archiver les news
_ et enfin un troisième site qui a un robot qui reprend le début des articles ( même plus besoin de flux rss )

Le mieux, c'est encore de produire, là on peut récolter ce dont on a semé.

Par exemple, google actualité récolte, mais je crois savoir que google nous demande notre avis avant d'aller récolter.

J'ai vu sur un site qui n'es pas le mien, hébergé à l'étranger, qui parle d'actualité. Depuis " ans, l'audience de ce site n'arrête pas de progresser, on m'a même proposé d'aller y travaillé , mais je dois pour cela déménager. Le contenu, c'est impossible de le récolter, car tout le contenu est sous abonnement, sous une infime partie. Le site n'a pas de flux rss, mais une newsletter, enfin des newsletters en plusieurs langues. Le site produit des dépêches tous les jours, mais accesible qu'après abonnement. Aucun de ces dépêches n'es publiée sur google actualité, ni sur aucun site agrégeant des flux rss. Il n'y a même pas de réécriture d'URL. En matière d'optimisation, aussi bien l'équipe de ce site et le webmaster sont fermement opposéà toutes les techniques dites d'optimisation.

Je regarde sur les différents datacenters de google,de yahoo, et les autres moteurs de recherche. Premier constat, le nombre de pages enregistrées sous google, du site en question, représente même pas 2% de toutes les pages du site. Autre constat, dans les résultats, plein de sites pointent vers ce site, et là je pense que c'est à cause de la notoriété. Pour les abonnements, ils ne cessent d'augmenter, alors pourquoi les gens sont ils prets à payer pour lire de l'information alors que l'information sur internet est en surabondance ? Il y a un paradoxe.

Alors, c'est un constat, et je vous invite à y réfléchir. Si on produit un contenu sérieux, cela sert à quoi d'optimiser un maximum son référencement si à la fin une partie de notre travail est récolté par autrui ?

Je pense que l'optimisation est plus pratique, en terme de rentabilité, pour les plateformes communautaires, qu'en pensez vous ?
 
Discussions similaires
Haut