3-2-1 backup a gyakorlatban: hogyan fut nálunk
3 másolat, 2 különböző médium, 1 offsite. Megmutatjuk, hogy pontosan ezt hogyan csináljuk — és mi történik, ha valami elromlik.
A backup, amit nem teszteltél, nem backup. Az egy remény.
A 3-2-1 szabály 1987 óta létezik, és senki nem csinálja meg rendesen. Mi igen — mert egyszer majdnem elveszítettünk egy ügyfél 18 hónapnyi adatát egy RAID rebuild közben. Azóta szigorúak vagyunk. A 3 másolat nálunk: (1) live DB replika (second node, streaming replication), (2) daily pg_dump fizikai lokális diskre, (3) daily offsite sync (másik adatközpont, Rsync + zfs snapshot). A 2 médium: NVMe SSD a gyors mentéshez, SATA HDD az archívumhoz. Az 1 offsite: különböző földrajzi helyen.
A heti restore teszt
Minden péntek 16:00-kor automatikus restore teszt fut: egy random ügyfél DB-jét visszaállítjuk egy sandbox szerverre, lefuttatunk egy smoke test scriptet (alapvető lekérdezések), és ha zöld, logolunk. Ha piros, a csapat azonnal riasztást kap. 14 hónap alatt 3 restore probléma jött elő — egyszer sem éles adat, csak backup sérülés. Mindhárom esetet 6 órán belül kezeltük.
RPO és RTO célok
- Tier 1 (Netorigo Financial): RPO 15 perc, RTO 2 óra
- Tier 2 (ERP, Logistics): RPO 1 óra, RTO 4 óra
- Tier 3 (marketing, blogok): RPO 24 óra, RTO 24 óra
- Havonta DR drill — szó szerint leállítjuk egy teszt rendszert és újraépítjük
- A drill 30 percig tart, nem egész napig — ha nem tartható, akkor a backup nem jó