東証システム障害 雑感メモ

ニュースページ巡回

珍しくニュースページを見て回ってます。が、どこも断片的で全容はイマイチわかりません。と思っていましたら、まとめられているページがありました。

2020年10月に発生した東京証券取引所のシステム障害についてまとめてみた - piyolog

すばらしい仕事ですね。

全然専門ではないですが、なかなか興味はそそられます。ワタシが普段関わるシステムとは全く規模が違いますが、いろいろ思っちゃいます。今日はその辺りをダラダラ雑感メモ。

超ざっくりとした流れ

以下のような感じでしょうか。

  1. ハードウェアが故障した(メモリデバイスらしい)
  2. バックアップに切り替わらなかった
  3. 波及範囲を考えた結果、システムを外部と遮断
  4. 故障部材の交換とシステム再起動で復旧
  5. バックアップに切り替わらなかった原因が不明のため、再発時に備え人張り付き

というところでしょうか。 10/2は無事終えたようですね。現場で対処に当たった方は、機器のログ解析から再現テスト、切り分けテストなど、原因の特定のために夜通し頑張られたことかと思います。お疲れ様でした。

シロウト雑感

市場に与える影響とかは全くわかりません。
なぜそんなこと起こってしまったかはとても興味があります。

  1. ハードウェア故障
    よくある話です。壊れない機器なんてないのです。ただすごく気になるのが、2019年11月から運用しているということ。とても新しい機器です。そんなにすぐ故障するものか。かなりヒキ強です。
  2. バックアップに切り替わらなかった
    これが致命傷ですね。ワタシが関わったものでもありました。複合要因ですが、要は機器の故障でした。何のための冗長化か、と思ったものですが、ひょっとしてよくある話なのでしょうか。
    今回切り替えできなかった原因も、結局ハードの故障ではないかと思ってしまいますが、どうなんでしょうかね。へえ、と思ったのは、システム導入時に強制切り替え試験を実施しているということ。これだけ巨大でリスクも大きいと、当然やるのか。オンリーワンのシステムかもだしなあ。
  3. システム遮断
    まあ、当然でしょうか。
    このあたりもマニュアル化されてるのでしょうかね。どこまで上層部に情報来てたか知らんけど、丸一日止めたままとは思わなかったのではと妄想。
  4. 部材交換と再起動で復旧
    冗長化した状態で復旧できたんですね。導入コストを切り詰めると、予備ないから手配できるまでバックアップのみで運用、とかなりそうですが。東証の基幹システムでそれはリスク大きすぎるか。
    今回のものに限らず、予備一式持ってるのでしょうか。
  5. 再発に備え人張り付き
    いろいろ意見ありますが、これもよくあることかなと思います。どのような保守契約かにもよりますが。
    原因がわかってないと再発を防ぐことはできませんが、現象がわかっていれば復旧はできます。場合によっては前兆を監視できるかも。同じことが起こりそうもしくは起こっても、ダウンタイムが最短になるような復旧マニュアルが作成されているのでしょう。きっと。

バックアップに正しく切り替えできていれば、外からは見えない良くある内部トラブルで済んだんでしょうか。本来そうあるべきですが、今のところはよくわからないな。気になります。

新しい情報出てくるかな。待ちましょう。