Logs serveurs web /dev/null ?

Julia41

WRInaute passionné
J'ai désactivé les logs de mes serveurs web sous peu afin de diminuer la charge (2Go de logs/heure)... Mais je me posais la question s'il y avait des obligations légales de garder ces fichiers...

Sinon, mis à part les stats, et les possibles hacks/bugs qu'on ne pourrait pas retrouver, voyez-vous d'autres inconvénients ?
 

Bool

WRInaute passionné
Il me semble qu'avec la LCEN et les futures dispositions récemment évoquées il y a quelques 6 mois de conservation. En pratique je ne pense pas que grand monde le fasse.

Et comme tu le dis coté hacks/bugs ces logs sont quand même vachement pratiques.

Maintenant 2Go de logs par heure, ça m'étonne. J'héberge quelques sites avec un trafic quand même conséquent qui atteint plusieurs Giga par jour (réparti sur plusieurs machines) ; mais on reste bien loin des 2Go par heure...
A moins qu'il s'agisse d'erreurs PHP ? ou encore du log de rewriting :p
 

2dm

WRInaute discret
Tu pourrais essayer d'extraire les informations les plus importantes avant de les supprimer.

Je pense que garder les informations sur la (les tentatives de) connexion + l'ajout de contenu est nécessaire.

Si t'as 2Go de l'heure de log, tu devrais pouvoir arriver à une centaine de Mo. Si tu compresses ça, tu devrais pouvoir atteindre une petite cinquantaine de Mo. Soit 1Go/jour.

Après, tout dépend comment tu gères ta sécurité. Mais je ne crois pas que supprimer tous les logs directement soit recommandable.
 

Julia41

WRInaute passionné
Ce sont des URLs très longues (si j'étais resté sur apache j'aurais des erreurs de type URL too long)...

La désactivation est aussi là pour préserver l'anonymat des utilisateurs (j'ai été très surpris de la réaction de ceux qui savaient ce qu'était les fichiers de logs (dans le bon sens du terme))

Edit pour 2dm qui a répondu avant moi...

Le problème est surtout les écritures niveaux disques qui font ramer énormément les accès...
Après ce n'est pas un problème d'espace disque...

Pour ce qui est de garder les uploads de fichiers ou autres choses, ceci est gardé sur un autre serveur qui ne sert qu'à ce genre de chose...
 

Bool

WRInaute passionné
Pour les URL, cela m'étonne quand même... tu y mets quoi dedans ? Il n'y aurait pas moyen de les réduire ? Voir de les compresser ?

Pour le problème des accès disques, Apache 2 permet de bufferiser les logs afin de limiter les écritures... ton serveur n'a t-il pas d'option de ce genre ?

Edit : en passant plutôt que d'envoyer les logs vers /dev/null autant les désactiver, ça évite quelques traitements inutiles.
 

Julia41

WRInaute passionné
Avec apache peut-être, je suis sous Lighty depuis un certains temps, et non, les URLs ne peuvent pas être compressées car certains clients ne sont pas compatibles...

Je parlais principalement niveau légalité bien sûr et savoir si j'avais zappés quelques désavantages...
 

Ron56

WRInaute occasionnel
Bool a dit:
Pour les URL, cela m'étonne quand même... tu y mets quoi dedans ? Il n'y aurait pas moyen de les réduire ? Voir de les compresser ?

Pour le problème des accès disques, Apache 2 permet de bufferiser les logs afin de limiter les écritures... ton serveur n'a t-il pas d'option de ce genre ?

Edit : en passant plutôt que d'envoyer les logs vers /dev/null autant les désactiver, ça évite quelques traitements inutiles.

C'est lighttpd qui est utilisé ici ;)
 

jeanluc

WRInaute accro
Julia41 a dit:
La désactivation est aussi là pour préserver l'anonymat des utilisateurs
Je me demande bien quelle activité légale peut exiger une telle discrétion dans un pays comme la France ou la Belgique... :roll:

Jean-Luc
 

Bool

WRInaute passionné
Bah selon le contenu des URL en question, un coup de gzip + base64 pourrait convenir ; sans vraiment de problèmes de compatibilité. A moins qu'il s'agisse de données issus de formulaires GET.
Mais tu as raison, on s'éloigne complètement du sujet de départ. C'est juste que ça m'intrigue vraiment d'en arriver à des URL de ce genre ; j'ai tendance à penser trop rapidement à une vilaine erreur de conception.

Pour Lighty, il n'y a effectivement aucune option coté logs (du moins je n'en ai pas vu)... mis a part l'utilisation d'un pipe quoi, ce qui risque de pas mal compliquer les choses.


Edit : moi aussi Jean-Luc, surtout que s'il s'agit d'un "anonymiseur" c'est lui qui endosse la responsabilité... et sans les logs, il n'a à priori plus rien pour se défendre...
 

Julia41

WRInaute passionné
Bah je ne veux pas les garder, les seuls réticences que j'avais été pour les hacks et trucs du genre...

Les URLs sont envoyés par le client... Et en ce qui concerne gzip + base64 bah cela ferait rammait un peu plus pour la compression, mais de toute façon cette compression devrait être fait côté client...

Enfin bon, je cherche simplement à les virer...

@jeanluc: Personnelement, moins mon IP est enregistré plus je suis content... Je n'ai pas dit que c'était en France, ni que c'était illégal (en France ou dans un autre pays)...
 

Bool

WRInaute passionné
Et en ce qui concerne gzip + base64 bah cela ferait rammait un peu plus pour la compression, mais de toute façon cette compression devrait être fait côté client...

C'était uniquement dans le cas où tu les conserverais pour les quelques raisons évoquées ci dessus.
Si ton serveur est ralenti à cause du volume d'écriture, il peut être intéressant de charger légèrement plus le CPU afin de réduire les écritures justement.

Voir de déporter les logs ailleurs...


Enfin, sans connaître ton activité si mystérieuse (anonymiseur ou regroupement d'URL de download de films ? :D) difficile d'être de bon conseil.
 

Julia41

WRInaute passionné
Je demandais juste s'il y avait une obligation légale et d'autres choses que j'aurais oublié, je sais qu'un hébergeur faisant du mutu doit les garder pendant X années...
Après c'est un peu comme si on me demandait de garder une copie du CO2 rejetté par ma voiture :p (exemple bidon)

Enfin voilà...
 

jcaron

WRInaute accro
Julia41 a dit:
J'ai désactivé les logs de mes serveurs web sous peu afin de diminuer la charge (2Go de logs/heure)... Mais je me posais la question s'il y avait des obligations légales de garder ces fichiers...

Sinon, mis à part les stats, et les possibles hacks/bugs qu'on ne pourrait pas retrouver, voyez-vous d'autres inconvénients ?

2 Go de logs par heure? Des logs d'accès genre http-access.log? J'y crois pas trop, non. Avec une longueur moyenne de ligne de logs de 500 octets (c'est déjà beaucoup), ça fait 4 millions d'accès par heure, plus de 1000 requêtes par seconde. Et ça fait surtout plusieurs Gbits/s de données échangées. Et je ne te parle pas des problématiques que tu aurais en termes de nombre de ports, sockets, processus simultanés et tout le tintouin. Mon petit doigt (qui se trompe rarement) me dit que tout ça ne tient pas sur une seule machine, et que son coût excéderait probablement assez nettement ton budget.

Donc soit:
- il s'agit d'autres logs (log d'erreurs et traces diverses et variées), auquel cas ben il faut nettoyer
- on est bien loin des 2 Go/h et l'intérêt de les désactiver reste bien modéré

Sinon, sur le fond, si comme je l'ai compris tu opères un proxy, je te conseille très vivement de garder des logs, et pour des mois plutôt que des jours. Tu vas un jour ou un autre recevoir une requête de nos amis des forces de l'ordre, et tu as bien intérêt à être en mesure de les fournir.

Pour référence, je te conseille la lecture de l'article L.34-1 du Code des Postes et Communications Electroniques (disponible du www.legifrance.gouv.fr comme d'habitude), ainsi que du L.32 qui contient les définitions associées, dont le 2° inclut bien (implicitement) les proxies. L'article R10-13 donne plus de détails, en particulier l'obligation de conservation des logs pendant un an.

Ceci dit, rien ne t'oblige à conserver les logs complets (tu peux te passer de beaucoup d'infos, ce qui compte le plus c'est l'IP, la date/heure, l'URL visitée, le reste tu peux probablement jeter), et tu peux évidemment les compresser et les stocker ailleurs.

Jacques.
 

Julia41

WRInaute passionné
...me dit que tout ça ne tient pas sur une seule machine

Je n'ai pas dit une seule machine, bien au contraire... Je parle bien de l'infra, mais les 2Go se retrouvre très rapidement sur le serveur servant de LB... Entre les réponses, les down, les ups... etc...

Il ne s'agit pas d'un proxy, mais je vais tout de même aller fouiner sur legifrance...

Edit : Impossible de trouver quelque chose sur ce site gouvernemental :p
 

raljx

WRInaute passionné
Julia41 a dit:
...me dit que tout ça ne tient pas sur une seule machine

Je n'ai pas dit une seule machine, bien au contraire... Je parle bien de l'infra, mais les 2Go se retrouvre très rapidement sur le serveur servant de LB... Entre les réponses, les down, les ups... etc...

Il ne s'agit pas d'un proxy, mais je vais tout de même aller fouiner sur legifrance...

Edit : Impossible de trouver quelque chose sur ce site gouvernemental :p

Je suis dans le meme cas que toi. Je supprimais mes logs (j'essayez bien de les downloader mais tu imagines bien la cata en terme d'espace et de temps). J'ai donc opté pour une synchro via rsync sur un serveur externe pour tout ce qui est error-log / sys-log et pour une sauvegarde LTO 800Go pour les access-log en choisissant les infos a generer.
 

Julia41

WRInaute passionné
Hum, je suis en train de lire les articles de loi... Ca se contredit à moitié et j'aurais peut-être dû faire des études de droits...

J'enchaine sur une autre question :
Pour mon infra, 70% des visiteurs sont français, donc 70% de mes serveurs sont chez OVH (traffic illimité), 20% au canada, et 10% en allemagne pour l'europe de l'Est...

Tous ces serveurs (étant donné que je suis de nationalité française) sont-ils soumis à ces lois que je viens de trouver sur Legifrance... Le traffic n'est pas un problème chez OVH, mais pour ce qui est de ces autres serveurs, si je dois en relouer juste pour servir de backup de log, bien que compresser, je n'imagine pas mes quotas...

Donc qu'est-ce qui fait autorité, moi, ou l'emplacement géographique des serveurs...
 

raljx

WRInaute passionné
C'est pour cela que les seules solutions pour ton cas sont :

- de generer des logs moins volumineux si cela est possible et de les stocker en local (dans une tour remplie de HDD)
- d'utiliser des espaces de stockages differents que de simples serveurs (le LTO est une solution, le LTO3 avoisine les 6To par contre les couts sont différents)
 

Yvan

WRInaute discret
Je sais que j'arrive un peu après la bataille, mais on peut trouver quelques infos sur le site de la CNIL :
http://www.cnil.fr/la-cnil/actu-cnil/article/article//retention-des-do ... ligations/

Je cherchais moi aussi des infos sur ce qu'il est essentiel de garder. Actuellement je conserve uniquement l'IP + url + date (et encore je crois que je vais me débarrasser de la date vu que je fais des logs horaires, même si la précision n'est pas extraordinaire, ça limite déjà pas mal le stockage !).

Sinon pour en revenir à Lighty, c'est sûr que si tu as des urls à rallonge, quoi que tu limites, ça ne changera rien à ta taille de log. Pour ceux que ça intéresse, c'est la variable accesslog.format qu'on peut modifier pour supprimer des données inutiles (comme le référent, le navigateur...) et qui prennent souvent pas mal de place.

Juste par curiosité, quelle solution as-tu trouvé depuis ?
 

Discussions similaires

Haut