SSD3本同時故障

太田区のシステムでSSDが3本同時故障し障害が発生したというニュースを見た。
いくつのディスクでRAIDを組んで、システムとしてソフトウェアの冗長を行うかで障害耐性が決まる。
2本のディスクではなく、3本のディスクでRAIDを組んで、更にソフトウェア冗長を行っていたのだろう。
通常の設計ではディスクの同時故障について、2本までリカバリ可能とするのがおそらく定石だ。
壊れ方によっては、3本壊れても大丈夫に思うかもしれないが、データは複数のデイスクに分散書込みされるので、同じデータブロックが大量の物理デイスクに細切れに保存される。
これは、書込みパフォーマンスを向上させるためのストレージサーバの仕様であり、アプリでどうこうできるものではない。
勿論、障害耐性を高めるためにストレージサーバの許す限りもっと多くのデイスクでRAIDを組めば、同時故障に対する体制は高まるが、リソースの消費が跳ね上がるので、実際には障害検知でバックアップとして準備されたドライブへの書き込みに切り替わり、障害の起こったドライブのデータは他のドライブに障害の起きていないドライブからスペアが生成される。
同時3本の同時故障は普通考えられないような確率だろうと思うが、先ほど書いたリカバリの最中に新たな障害が起きると、それは3本同時故障となる。
だが、今回の事故は交換部品まで故障という話。
俄には信じがたいけど。