Havi DR drill 30 perc alatt: mit csinálunk és mit nem
A disaster recovery drill nem lehet egész napos esemény. Ha az, soha nem fog megtörténni. 30 perc, szigorúan.
A DR drill, amit nem gyakorolsz havonta, egy papír, nem terv.
Sok cég úgy érzi, elég 6 havonta egy DR drill. Ez veszélyes — 6 hónap alatt elfelejtődik a runbook, új csapattagok nem gyakoroltak soha, és amikor valódi incidens jön, elakadnak. Mi havonta 30 percet szánunk rá. Miért csak 30 perc? Mert ha több, akkor nem lesz megtartva.
A 30 perc felosztása
- 0–5 perc: scenario kiválasztása (random kocka dob a 10 szcenárióból)
- 5–20 perc: a runbook végrehajtása — csak az első 3 lépés, nem a teljes recovery
- 20–25 perc: mi volt jó, mi nem volt jó, mi változik a runbookban
- 25–30 perc: runbook frissítése, ha kell (git commit)
- Ha az első 3 lépés nem fér bele 15 percbe, a runbook rossz — újra kell írni
A 10 szcenário: primary DB down, network split, full datacenter down, TLS cert expired globally, auth provider down, deploy corrupt, DNS poisoned, backup corrupt, monitoring blind, encryption key lost. Minden hónapban egy véletlenszerű. 12 hónap alatt a 10-ből minden szinte biztosan előjön, és így a team mindet gyakorolta.
Nem az a baj, hogy lesz katasztrófa. Az, hogy akkor megy fel a pulzus, amikor már késő gyakorolni.