MNPトップを走っていたauは今回の事態を乗り切れるか

フォローする

http://www.kddi.com/corporate/news_release/2013/0610a/

auは先日からのトラブルについていくつかの対策と発表を行った。この中には障害だけではなく、以前発生していたエリア偽装疑惑にも触れれられている。MNP(モバイルナンバーポータビリティ=番号持ち込み制度)で長い間トップを走っていたau、今回の問題はその根底を覆すものになってしまうだろうか。

第一の障害発生

第1の障害は4月、ソフトウェアのバグが根本原因で、細かい技術的な記載は省くがLTE設備への接続制御が行えなくなり、6時間の障害となった。この時には、つながりは悪いが3G回線で接続は賄えており音声通話にも障害は発生していなかった。6時間という長い時間不通だったが、そもそもLTEにつながらない地域があったり、3Gでなんだかんだと使えていたので問題としては大きいがまだ許せる部類だった。

auの資料によると、制御装置は大きく分けて2つあり、最初に問題が出たのは1つ目の装置であるということだ。この時には1つ目のトラブルに端を発し、別の障害を誘発した事により2重のトラブルが発生してしまうことになった。とばっちりを受けた2つ目の装置ではあるが、おおよそ1カ月後に修正のために動き出すことになる。この修正がうまく行っていれば問題はなかったのだが、そううまく行かないのがこのご時世という事かもしれない。

第二の障害発生

第一の障害を解消するべく、装置にパッチ(修正プログラム)を適用させている間に第二の障害発生となった。今回はハードウェアのトラブルによるもので、急遽切り戻し作業を行ったと報告書にある。つまり、トラブルが出たのでパッチ適用前へ戻す作業を行ったということだ。戻すために1つ目の装置を止めることになる。当然処理は2つ目の装置へすべて流れて行く事になる。

普段2つの装置で行っている作業を1つで賄えるか、答えはもちろんNOである。処理件数が増えた事により輻輳が発生、第一の障害時と同じように、別のトラブルが発生、結果として第一の障害時と同じ結果となりすべてが止まってしまった。この事態そのものがお粗末な結果ではあるが、ここではさらなる悲劇が待っていた。

ハードウェアのトラブルということは、交換作業が発生してくるわけで、そうなると第一の障害よりも復旧に時間がかかることとなる。その間も通信リクエストは各地から飛んでくるわけで、続いての悲劇を招くこととなった。

通話へも影響が発生する事態に

LTEが繋がらない時には3Gに繋がるのが当然というシステムだ。では、首都圏数十万人という加入者がLTEにつながらなくなり、3Gへと接続される処理が一気に起こる。例えるならば、非常警報が鳴って慌てて出口へ殺到するさまを想像してみよう。入り口では押し合いへし合い、迷子も出るだろう、つまり輻輳が発生する。

この時に輻輳を起こしたのが加入者管理をしているところ。ここが輻輳を起こすことで処理上は「こいつ、本当にうちの加入者か?」という判断が正常にできないところが出てきてしまう。結果、通話をしようとしてもau電話加入者ではない、と処理されてしまい通話もSMSも利用できなくなってしまった。ただし、この現象はすべてのユーザーではなく特定のユーザーであるため、影響範囲は全体的な通信断に比べれば影響範囲は少なく済んでいる。どうにもお粗末な結果、この件に関しては擁護できるところが全くない。

二度ある事は三度ある…

16時間にも及ぶトラブルシュートの結果、ある程度の安定性を戻したところで再度パッチ適用作業を行う。そう、これが第三の悲劇の幕開けだった。準備中に何らかの問題が発生したのか、一部の機能が高負荷によって機能停止。前日と全く同じパターンにはまり 3回目のトラブルが発生。

学習能力ないのかよ、というのが第一の感想だ。全く持ってあり得ない。この第三の障害時は通話に関しては不通になることはなく、つながりにくいことがある、という程度にとどめられた。それにしても情けない。この障害からわかる事は、綱渡りのシステムを利用していること、そして設備の余裕が思ったほどない事。最後に、ずさんな管理をしていた事。

なんだかなあ、としか言いようがない。他にLTEのエリアに関する情報も出ていたが、それはまた次の機会としたい。まずは安定して使えること、それを大前提として計画して欲しいと切に願う。

コメントを残す