Quels sont les outils pour prévenir d'un problème potentiel (hors plantage)

WRInaute passionné
Bonjour,

je suis perplexe. Je viens de voir qu'un daemon avait 6 instances qui prenaient chacun 14% de la mémoire (de 2 Go de RAM).
Soit 84% de la mémoire occupée.

J'ai fait un TOP pour savoir si un processus ne prenait pas trop de puissance, car un des sites web était étrangement lent.
Bon. Voilà le constat. Je n'ai pas encore investigué pour savoir quelle était la cause de ce problème.

Mais ma question est la suivante :

Existe-il un outil de monitoring pour dire que potentiellement un problème existe car le serveur est étrangement lent (mais pas forcément de plantage) ?

lolo
 
WRInaute passionné
Tu peux utiliser munin qui fait des courbes et qui permet de monitorer pas mal de services (avec des courbes).
Ca demande quelques lectures/compréhension, mais par exemple si tu vois que ta ram monte peu à peu alors que tes visites n'augmentent pas ça peut généralement venir de là.

A noter que sinon tu as nagios qui monitore certains "temps de réponse" comme le http, le smtp.
Pour le http ma configuration est généralement comme ça : si ça réponds entre 0 et 2s => OK, entre 2 et 10 => warn => plus de 10 => timeout.
 
WRInaute passionné
hello Julia41

très intéressant cette notion de monitorer le temps de réponse sur les services (http, smtp).
De même, je vais aller faire aussi un monitoring du CPU (%) et de la RAM (%)...

CPU et/ou RAM :
si plus d'10 minutes continues à plus de 80 % = warn niveau 1 ... warn niveau 2 si plus d'1 heure
si plus de 5 minutes continues à plus de 95 % = warn niveau 1 ... warn niveau 2 si plus de 30 minutes

Cela peut être un bon moyen de monitorer, en plus du temps de réponse des services.
 
WRInaute passionné
loran750 a dit:
hello Julia41

très intéressant cette notion de monitorer le temps de réponse sur les services (http, smtp).
De même, je vais aller faire aussi un monitoring du CPU (%) et de la RAM (%)...

CPU et/ou RAM :
si plus d'10 minutes continues à plus de 80 % = warn niveau 1 ... warn niveau 2 si plus d'1 heure
si plus de 5 minutes continues à plus de 95 % = warn niveau 1 ... warn niveau 2 si plus de 30 minutes

Cela peut être un bon moyen de monitorer, en plus du temps de réponse des services.
Attention quand tu monitores ton propre serveur :
Cela demande des ressources.
Du coup, par exemple quand mon monitoring se lance (toutes les 5 minutes) pour monitorer une vingtaine de serveurs, j'arrive sans soucis à 100% d'utilisation de CPU le temps du traçage/monitorage. Du coup ce "monitoring" précis (celui du serveur de monitoring) est faux car c'est de l'instantané ;)
 
Discussions similaires
Haut