IBM i のウンチクを語ろう:その28
- アベイラビリティ対策 -
皆さん、こんにちは。IBM i 搭載パワーシステムのメリットとして、多くのお客様から評価いただけているポイントの一つに、安定している事があげられます。システムの安定性とは、特別な注意を払ったりあまり人手を掛けたりしなくても、期待した機能を継続的に発揮し続けられる事であり、IBM iにおいては運用の容易性、セキュリティの高さ、信頼性の高さ、などといった要素の総合力によって支えられています。
特にシステムは動いて当然、万が一の事があったら「減点法」で評価されますので、製品を提供する側にとっては、なかなか厳しい立場に置かれます。形あるものはいつかは壊れる、理屈ではわかっていても、自分のところだけは無事であって欲しいと考えるのが人情です。そこでトラブルに見舞われて業務に支障が及んだりすると、社内外から非難を受けて運の悪さを嘆いたり、予防対策の不足を呪ったり、そしてその鬱憤が製品提供者に向けられる、といったありがたくない連鎖が発生します。
パワーシステムとして実際にどの程度安定していると言えるのでしょうか。アメリカの調査・コンサルティング会社のITIC(Information Technology Intelligence Consulting)から2018年3月付けで、「2017 - 2018 Global Server Hardware, Server OS Reliability Survey」(英文)というサーバー信頼性調査結果が公開されています。この文書のページ9に、4時間以上の計画外システム停止を経験したお客様の割合が掲載されており、パワーシステムの1%は、IBM Zメインフレーム(文書ではIBM System z と表記)の0%に次いで少ないと評価されています。そしてページ8にあるように、計画外停止時間が4時間未満のお客様(99%に相当)の98%は40分以下に留まっており、信頼性の高さがうかがえます。ただパワーシステム全体の1%は4時間以上の計画外停止を経験していますし、今後保証されているわけではないので、万一に備える必要性が無くなるわけではありません。
人はどの程度インフラの機能不全を許容できるのでしょうか。いくつかの「動いて当然」の代表的な社会インフラについて、5分間の停止を許容できる人の割合が公表されていますので、眺めてみましょう。一つは株式会社NTTデータ経営研究所の「社会インフラにおける停止許容時間についての調査」(2009年9月7日)、もう一つは日経XTECH『9割は「ATMが5分止まっても許せる」、ITpro読者1330人調査』(2009年10月9日)です。水道、電車、ガスの三者についてはどれも概ね80-90%程度の方が停止を許容できると、似たような傾向を示しています。ところがNTTデータ経営研究所の調査結果では電気73.2%、ATM 71% であるのに対して、日経XTECHではそれぞれ44%・90%(停電に厳しくATM停止に甘い)と様相が大きく異なっています。
アンケート回答者のプロフィールに大きな差がある事が原因と考えられます。日経XTECHの記事にありますように、NTTデータ経営研究所は広く一般の方から回答を得ているのに対して、日経XTECHはIT系のWebサイトですから、回答者もIT関係者が大半を占めるのでしょう。おおよそATMとそれを支えるコンピュータというものは障害とは無縁ではない、ただマシンを稼働させるために必要な電気が停止するのは許容できない、といった「常識」が共有されているわけです。これが一般の方とはちょっとずれているのかも知れません。人の数だけ常識はあるそうですから、アベイラビリティ対策において考慮しておきたいですね。
システムの故障の原因は様々ですし、あらゆる事象に耐えられるよう完璧を目指せば、投資が過大になってしまいます。ビジネスの形態によっても異なりますが、実用上大きな問題にならない程度のシステム停止の許容範囲を見極めて、どのようにしてそれを達成するのかを検討する方が現実的です。あらゆる企業が銀行のオンライン・システムと同等のアベイラビリティを達成しなければならないわけではありません。
上記ITIC文書のページ21に「Cost of Hourly Downtime for Enterprises」、すなわち一時間のシステム・ダウンが会社に与えるコスト・インパクトを示すグラフがあります。最頻値は30~40万ドルですから、日本円にして3,300~4,400万円といったところですが、ページ22にあるように、銀行・金融業になると10億円を超えるケースもあります。一方で復旧に要する時間すなわち想定される停止時間は、システムの規模とか取ろうとしている対策の内容によって決定されます。システム停止によってもたらされる社会的インパクトやコスト・インパクトの規模感を把握できれば、どの程度の投資を行って対策を取ればよいのか、計画を立てやすくなります。
何から手を付けるべきかを計画するには、システムとして最も重要な資産は何なのか、を考えてみると良いと思います。失われたり、破損したりした際に、ビジネス的なインパクトが大きくて、復旧に時間を要するものから対策を講じるわけです。誰でも手に入れられるものではなく、企業の存続に関わっていて、企業独自の価値を決定付けるものだとするならば、最優先で守るべきはビジネス・データです。そして最近はSSDが採用されるケースも増えてきましたが、データの多くはハードディスクに格納されている事も要注意と言えます。機械駆動を前提としており長期的には摩耗するので、ハードディスクはコンピュータの中で最も故障率が高い部品の一つです。
システム運用の基本として長年根付いているのは、ビジネス・データをハードディスクとは異なるタイプのメディアに複製・退避させること、すなわちテープへのバックアップです。ただテクノロジー刷新に伴って、テープ・メディアが陳腐化し変換作業が必要になる可能性がありますし、メディアそのものを大事に耐火金庫にしまっておいても、先の大地震のように津波のために流失してしまうケースもありました。より一層の安全性を追求するために、最近ではIBM Cloud Storage Solutions for i というソフトウェア製品によって、圧縮・暗号化してクラウドにバックアップする方法も行われています。
ディスクについては冗長構成によってアベイラビリティを担保するのが一般的です。特にIBM i は単一レベル記憶という独特のストレージ管理の仕組み(第6回目の当コラム「単一レベル記憶-1」参照)ゆえに、30年前のAS/400登場当初は、ディスク障害はアベイラビリティにおけるアキレス腱でした。現在はミラーリングや各種RAIDテクノロジーを活用できるので、かつての弱点は克服されています。
投資額は大きくなりますが最もアベイラビリティに優れるのは、本番機とバックアップ機の二台体制によるものです。本番機上にある最新データを、バックアップ機で利用できれば良いわけですが、その仕組みにはいくつかのバリエーションがあります。持つべきデータは1セットのみで、本番機とバックアップ機の二台からアクセスするのか、本番機とバックアップ機のそれぞれにデータを持っておいてリアルタイムにコピーするのか、このデータ・コピーはOSを利用するのかより高速な外付けストレージのコピー機能を利用するのか、バックアップ機は待機専用になるのか他用途に利用できるのか、などといったところが考慮点です。システム全体のコストや運用性、さらにはバックアップ機への切替え所用時間にも影響します。単純に何かの構成が優れるというわけではなく、それぞれに一長一短がありますので、実際には個別に検討いただく事になります。
気を付けておきたいのは、セキュリティに絶対は無いのと同様に、アベイラビリティにも絶対は無いという事です。本番機とバックアップ機を遠隔地に配置したにも関わらず、震災直後の計画停電において、両者が同じ計画停電グループに組み込まれてしまったケースがありました。想定どおりにバックアップ機が稼働しても、停電のためにネットワーク経路が機能しなかったケースもありました。意外にも社員の安全確認にSNSが有効だったという報告もありました。想定し得る範囲で万一に備えるとして、可能性が限り無くゼロに近くても、それを超える事態が発生しないとも限らない、あとはその場の柔軟性が求められるのでしょう。
ではまた