DevOps

SYSTÈME DE MONITORING

Stack Prometheus/Grafana pour la surveillance métrique des serveurs et alertes Slack.

Dépôt bientôt disponible

PrometheusGrafanaAnsibleLinux

Phase 1

Contexte

Un serveur perso tombait régulièrement sans qu'on le remarque avant des heures. Pas de monitoring = pas de visibilité. J'ai construit une stack d'observabilité complète pour ne jamais être surpris par une panne.

Phase 2

Méthodologie d'Apprentissage

1
Étude des 4 Golden Signals (Google SRE) : latency, traffic, errors, saturation
2
Installation manuelle Prometheus + Node Exporter pour maîtriser le modèle pull et le format de métriques
3
Dashboards Grafana itératifs : d'abord CPU/RAM, puis réseau, puis métriques applicatives
4
Automatisation complète via playbooks Ansible (reproductibilité)
5
Alertes Slack graduées (warning/critical) via Alertmanager

Phase 3

Défis Techniques

Explosion de métriques (50k+ time series)

Prometheus saturait en RAM. Solution : configuration scrape intervals, relabeling rules, filtrage des métriques non-essentielles.

Alertes bruyantes et non actionnables

30+ déclenchements/jour pour micro-fluctuations. Apprentissage : for duration, inhibition d'alertes, conservation des signaux critiques uniquement.

Dashboards illisibles (trop d'informations)

Premier dashboard ressemblait à un cockpit avion. Refonte UX : une métrique clé par panneau, hiérarchie visuelle claire.

Phase 4

Résultats

Stack Prometheus/Grafana couvrant 8+ serveurs, détection d'anomalies <2min
3 dashboards : infrastructure, application, business metrics
Compétence transversale observabilité applicable à toute stack
Mindset : 'What gets measured gets managed'

Explore More