Alert fatigue: hogyan zártunk le 73%-nyi riasztást egy hónap alatt
1200 alert/hét → 320 alert/hét anélkül, hogy kevésbé lennénk biztonságban.
Ha minden fontos, semmi sem fontos. Ha minden alert zajos, minden alert zaj.
2025 júliusában a team 1200 alertet kapott egy héten. Nagy részüket némán archiválták. 2 valódi incidenst átaludtunk közöttük, mert a csapat nem tudta megkülönböztetni a jelentőset a zajtól. Ez ún. alert fatigue, és szakmai halál. Bevezettünk egy 4 lépéses tisztítást.
A 4 lépés
- 1. Severity audit: minden alert típust újrasoroltunk 3 kategóriába (P1/P2/info) — 70% volt valójában info
- 2. Groupolás: 10 alert ugyanazon hostról 5 percen belül = 1 alert
- 3. Dedup ablakok: ugyanaz az alert 2 órán belül = 1 alert
- 4. Routing: P1 → PagerDuty + SMS, P2 → Slack, info → dashboard only (nem push)
Eredmény 4 hét alatt: 1200 → 320 alert/hét. A P1-ek száma csökkent 78-ról 12-re. A csapat kezdett újra "látni" az alerteket. 8 héttel később egy valódi adatbázis probléma érkezett — a team 6 percen belül észlelte, mert a P1 SMS kiment, és nem volt zaj, ami elnyomta volna.
A csend nem az ellenséged. A zaj a riasztórendszereidben — az az ellenséged.