SOLの障害について(第3報 最終報)
2021年5月23日 21:57頃にSOLにおいて障害が発生しました。この障害はNASのコントローラの故障によるものでした。コントローラは冗長構成になっており、本来であれば1ユニットが故障しても別のコントローラにフェイルオーバーするように設計されていましたが、何らかの原因でフェイルオーバーしませんでした。原因については現在もメーカーで調査中です。
ログなどを解析後、24日 8:25頃に故障したコントローラを取り外してNASを再起動したところ、正常にフェイルオーバーし、ハードウェアシステムの仮復旧に至りました。その後、SOLのシステムを順次再起動し、9:10頃にサービスが復旧したことを確認しました。
On May 23, 2021, at around 21:57, SOL had be in technical problem. A NAS controller was broken. Controller had a redundancy. It was originally designed to failover to another controller if one unit failed, but for some reason it did not. The cause is still under investigation by the manufacturer.
After investigation of logs, on 24th at around 8:25am, we remove failed controller and reboot the system. It became fine. After that, the SOL system was restarted. At around 9:10, the SOL system was in service.
On 28th,the failed controller was replaced and it now back to normal.
(31st May 2021)