Vadné disky aneb proč RAID1 (mirror) není záloha

Disky jsou mechanické výrobky a ty prostě občas odcházejí. Běžná věc. Pro snížení rizika ztráty dat se vymyslel systém pojmenovaný zkratkou RAID (Redundant Array of Inexpensive/Independent Disks — Pole nadbytečných levných / nezávislých disků). RAID není záloha, to se často opakuje a laici to nechtějí slyšet.

Asi před 14 dny mi odešel jeden disk. Výrobce v tomto článku nebudu uvádět, abych nezavdával příčinu zbytečnému flame. Disk měl naběháno přes 2.3 roku (smart údaj power_on_hours něco přes 20’000). To je celkem dost na odchod do křemíkového nebe. Disk jsem vyměnil apole sesynchronizoval. Data zůstala neohrožena.

Dnes mi raid monitoring zahlásil, že se loučí s dalším diskem (má 13 vadných sektorů) a to ve stejném poli (mirroru). Tento disk (jiného výrobce, než předchozí) má odpracováno pouze 9’000 hodin, což je málo, půjde na reklamaci. Kdyby si ovšem s touto závadou pospíšil o 14 dnů (oba disky by selhaly současně), data by již nebyla.

Na tomto chci ilustrovat jeden z důvodů, proč RAID není záloha. Při poruše jednoho disku může totiž dojít i k poruše toho druhého. Není to jev častý, ale má nenulovou pravděpodobnost. Porucha je také “podpořena” synchronizací pole, kdy oba disky jedou několik hodin na 100%.

Stále tedy platí, zálohovat, zálohovat, zálohovat.