SYSTÈME DE MONITORING
Stack Prometheus/Grafana pour la surveillance métrique des serveurs et alertes Slack.
Contexte
Un serveur perso tombait régulièrement sans qu'on le remarque avant des heures. Pas de monitoring = pas de visibilité. J'ai construit une stack d'observabilité complète pour ne jamais être surpris par une panne.
Méthodologie d'Apprentissage
- 1
Étude des 4 Golden Signals (Google SRE) : latency, traffic, errors, saturation
- 2
Installation manuelle Prometheus + Node Exporter pour maîtriser le modèle pull et le format de métriques
- 3
Dashboards Grafana itératifs : d'abord CPU/RAM, puis réseau, puis métriques applicatives
- 4
Automatisation complète via playbooks Ansible (reproductibilité)
- 5
Alertes Slack graduées (warning/critical) via Alertmanager
Défis Techniques
Explosion de métriques (50k+ time series)
Prometheus saturait en RAM. Solution : configuration scrape intervals, relabeling rules, filtrage des métriques non-essentielles.
Alertes bruyantes et non actionnables
30+ déclenchements/jour pour micro-fluctuations. Apprentissage : for duration, inhibition d'alertes, conservation des signaux critiques uniquement.
Dashboards illisibles (trop d'informations)
Premier dashboard ressemblait à un cockpit avion. Refonte UX : une métrique clé par panneau, hiérarchie visuelle claire.
Résultats
Stack Prometheus/Grafana couvrant 8+ serveurs, détection d'anomalies <2min
3 dashboards : infrastructure, application, business metrics
Compétence transversale observabilité applicable à toute stack
Mindset : 'What gets measured gets managed'
Explore More