一応、IT業界に身をおくもの(しかもSI)として、サーバに発生しているラグについて、外枠から検証してみようと思う。
えぇ、ネタがなかっただけです。
遡ること、三日前の9日火曜日6時13分。
いきなり、サーバーから切断されログインできないという現象が発生。そのまま緊急メンテが実施される。
ガンホーにしては珍しく1時間おきに情報を更新している。
最初の記事(上記リンク)が6:17にでており、そこから7:17、8:17、9:17と出ている。
この9:17の時に、ようやく障害内容が発表される。障害の内容は「機器故障」となっている。機器取り替え作業のため、引き続きメンテはそのまま延長。
9:55に、週次メンテにそのまま突入する旨が更新され、そのまま週次メンテにもつれ込むことに。
で、週次メンテが明けてみたら、サーバは復旧していたものの、巻き戻りが発生することになった。
定期メンテナンス終了のお知らせ
巻き戻りの理由としては、「機器故障の影響」ということである。
巻き戻りに際して、私が所属するギルドでもムンクの叫びが聞こえてきましたがでも、そんなの関係ねぇ。はい、2倍!
で、実際にログインしてみると、多少のラグはあるものの、全盛期のDIOみたいな9秒経過ッ!やディアボロみたいな、『結果』だけだ!!この世には『結果』だけが残る!!というのは、ほぼなくなったかと思います。
どちらかというと、スタープラチナ ザ ワールドくらいですね。
概要としては、このようなところ。
ここから考察できることは少ないですので、ネタを投下。
ラグナロクオンライン-wikipedia-
この記事が本当ならば、「サーバー機器」という項目の中に、「ラグナロクオンラインで用いられているサーバーは、IBMのBladeCenter HS20シリーズ」ということになっている。IBMのホームページでも、ガンホーの事例が紹介されているので、ほぼ間違いないと思う。
この業界では当然のことながら、複数台のサーバーでデータベース(DB)を見なければ、データの共存は出来ないので、接続形態としてはこんな形になるのではないかと考える。
□\
□-■-●
□/
□・・・sesサーバと呼ばれているサーバ群のmapサーバ。sesだけにでも10台以上あると予測できるのは容易
■・・・DBサーバ。負荷分散を行っているのであるならば、複数台存在する。
●・・・DBのあるディスク装置。ハードディスクがたくさん入っている。これも1台とは言えない。
※これら以外にもバックアップ装置、F/W、負荷分散装置があるだろうと思う。
MAPサーバー間移動でのスキルが消える(たとえば、奇跡とか)のは、mapサーバが持つコネクションが切断されることで、一度ログアウトされたとDBサーバが認識することによるものかと考える。
(ギルド所属してたりすると、map移動でログアウト・ログインのメッセージが出ることから。ブレス・IAなどは別のロジックが働いているのではないだろうか?)
巻き戻しになった原因としては、上記図の●の部分、そう・・・ディスク装置と呼ばれるものの故障と思われる。理由としては、普段ガンホーはサーバに障害が発生した場合は「サーバートラブル」という表記をしており、今回の「機器故障」とは別物だと考えるからだ。また、巻き戻りという観点からディスク周りのトラブルということは必至である。
また、巻き戻す必要があった(のかどうかは、断言できない。そこは後述する。)ため、ディスク装置に入っている多くのハードディスクが壊れたのではないだろうかという推測になる。
では、なぜ巻き戻す必要があったのだろうか?
●のディスク装置は、必ずバックアップを取っている。ただし、それが常に完全バックアップというわけではなく、差分バックアップ(最後に取得した完全バックアップからの変更のみをバックアップする手法)、増分バックアップ(前回のバックアップからの変更点のみをバックアップする手法)、トランザクションバックアップ(DBの概念がわからないと説明が長くなるので割愛)のどれかでを取得しているかと思われる。私の予想では、週次メンテ以外常時稼動している状況や巻き戻りの内容からして、増分バックアップで取得し取得するタイミングは毎日または数時間置きだろう。
完全バックアップを取得するにはかなりの時間を要するため、週次メンテで取得しているかと思うが、増分は逐次取得していることから7日23:40の差分バックアップからデータリストアすることとなったと思う。時間からして1日おきではないだろうか。
さて、そうなると、なぜ月曜日のデータには巻き戻らなかったのだろう。
私の貧弱な頭脳からすると、理由らしい理由は、「すでにディスク装置の障害はたくさん出ていた」ということかと思う。
本来はもっと前にまき戻したかったのだろうが、巻き戻った時間がGvGが終わったあとの時間ということを考えると、あながち間違えたことを言ってはいないと思う。GvGは1週間に1回の祭りみたいなもの。その時間が損なわれてしまうと、砦の宝取得不可・AD使用不可ということになりかねないからだ。これは本来サービス料1500円の中に含まれる一部サービスを提供しないということと等しい。そうなってしまうと、補填チケット1日分・経験値2倍だけでは済まないだろう。
ディスクが死んでも、データがバックアップされていれば良いのでは?ということもありえるが、ディスクが破損されていたときのデータの正常性を確認できるすべは皆無に等しく(ひとつしかないはず)、データを復旧させれば問題ないという判断するには莫大なコストがかかってしまう。
(特に時間がかかると思います。)
さて、このようなことをなくすためにはデータベースレプリケーションを行い、障害発生時には切り替えることで回避することは可能だとは思いますが、ガンホーが使用しているDBで、そんな高等なことが出来るとは到底思えません
まっとうな企業なら、原因究明を行い、エンドユーザへの説明があってしかるべきですが、いかがでしょうか。ガンホーさん?

コメント (2)
まっとうな企業じゃないから無理!!残念!!!
結果として、二倍のおかげで転生→その後の育成が楽になったのは言うまでもなかったり・・・w
投稿者: リノア | 2007年10月14日 01:23
日時: 2007年10月14日 01:23
確かに楽w
もうLeoさんはパラになったから、あとはリノアちんだけだね!
投稿者: リーフ | 2007年10月14日 17:18
日時: 2007年10月14日 17:18