MSの大規模障害
1/25日に発生したMSの大規模障害の原因速報。
今回の障害の原因は、WANルータに投入したコマンドで一斉にルーティングテープルの再計算が行われたことらしい。
〇テーブルの再計算は鬼門
ルーティングプロトコルのおかげでルーターはルーティングテーブルを自動的に計算してくれるので、新設、交換が容易になっている。
ところが、大規模なネットワークではルーティングテーブルの再計算は鬼門だ。
一斉にテーブルを再計算するとパケットロスが増えたり遅延が増大するだけではなく、何日経ってもテーブルが収束しなくなる。
昔見たことがある。
予算の都合でメモリが少ないルータを使うと、新設した時にはなんとか動いているけれど、再計算が始まるとルーティングテーブルが溢れ、特定のLAN間で通信できなくなる。
ルーティングテーブルを溢れさせる原因になっているルーターが別のLANにあると、原因究明は困難だ。
ルータを設置するときには、通信できることを確認すると安心してしまう。
設定ミスで他所のルータのテーブルが溢れさせるとは思わないのである。
〇ネットワーク屋さん
ネットワーク屋さんは普段注目されることも感謝されることも無いのだけれど、障害が発生した時には非難される。
損な役回りだ。
速報で直接的な原因は発表されたけれど、問題は、なぜそのような危険なコマンドが承認なしに実行されたかだろう。
本当の原因を追求して対策しなければ、同じ事故が発生する。
多くの場合、ネットワーク屋さん個人の資質より組織風土などが要因になることが多い。
大型連休の度に止まる銀行のシステムのように。
詳細なレポートが発表されたら読んでみよう。
最近の投稿
【Yoshiのよしなしごと】【Yoshiのブログ】【よしなしごと】【ほぼ1人情シス】
« Excelの功罪 | トップページ | そろばんでやれ »
「よしなしごと」カテゴリの記事
「ほぼ1人情シス」カテゴリの記事
- 細心の準備をして、大胆に行動する(2023.10.25)
- Eメールはかなり不確実な通信手段(2023.10.23)
- 10℃・2倍則 <専門家の想定リスクは聞いとけ>(2023.05.24)
- そろばんでやれ(2023.02.08)
- MSの大規模障害(2023.02.04)
コメント