銀行のSystem iハードウェア障害を救った高可用性(HA)ソリューション
昨年、ニュージーランドのウエストパック銀行で、めったに起こることのないSystem i サーバーのバックプレーン障害が発生し、クリティカルなホールセール取引アプリケーションが完全にオフラインになりました。IBM は直ちに交換部品を飛行機に積み込みましたが、最良のシナリオでも3日間のダウンタイムを余儀なくされました。けれども、 Maxava社のHA(高可用性)ソリューションを使用していたおかげで、トランザクションは1つも失われることはありませんでした。
顧客数1千3百万を超えるウエストパック銀行は、アジア太平洋地域で最大手の銀行の1つであり、オーストラリアの4大銀行の一角を占めています。シドニーに本店を置く同行は、個人顧客および法人顧客の対応の支援のために様々なアプリケーションおよびサーバーを利用しています。それらの中に、 Misys社によって開発されたMidasと呼ばれるIBM iベースのバンキング アプリケーションがあります。このアプリケーションは、ホールセール金融市場および同行の顧客の証券取引アクティビティに対するバックオフィス サポートを提供しています。
ニュージーランド、ウエストパック銀行のテクノロジー ソリューションズ マネージャー、Cliff McCauley氏は、Midasを稼働しているSystem i Model 550 サーバーのバックプレーン障害について知らせを受けた時のことを思い起こします。このサーバーはニュージーランドのオークランド市内のIBMデータ センターにホスティングされていました。「私は休暇中で、そのことがちょっとした問題でした」とMcCauley氏は 『IT Jungle』に述べます。「電話を受け、その後数日の予定を切り上げました。」
障害は4月30日の木曜日に発生しました。そしてシステムは5月3日の日曜日までダウンしたままになる可能性がありました。IBMは、日曜日であれば、新しいバックプレーンが届いて、インストールして、システムを復旧できると言っていました。このサーバーが処理していたのは、ニュージーランド国内の顧客の取引のみでしたが、それでも、同行の信用は言うまでもなく、取引中の数百万ドルが危険にさらされていました。
「大惨事になったでしょう」と、Midasアプリケーションが3日間使用できない見込みだったことについてMcCauley氏は事もなげに言います。別のサーバーが、顧客が目にするフロントエンド トレーディング アプリケーションをハウジングしているとは言え、このバックオフィス システムの障害は破壊的であったろうと思われます。
「どのようにしただろうか分かりません」と彼は続けます。「GL(総勘定元帳)には、ポジション情報がなかったろうと思われます。手動での手順の準備を整え、うまくいくように願うことくらいしかできなかったことでしょう。すべてはバックオフィスの処理でしたが、管理するのは非常に難しかっただろうと思われます。」
しかし、McCauley氏の先見性のおかげで、ウエストパック銀行はそのような道筋を辿ることはありませんでした。約10年前に現在のSystem iシステムを購入後すぐに、このテクノロジー マネージャーは、他ならぬこのアプリケーションの保護のために、Maxava社のHA(高可用性)ソフトウェアの実装を決めました。
同行では、長年にわたって、本番システムと、オークランドの反対側に位置する別のデータセンターのバックアップ システムとの間でロール スワップを実施することにより、Maxavaソフトウェアとその準備態勢のテストを行っていました。バックプレーン障害が起きたことで、そうしたテストが役に立つことが証明されることとなりました。
「問題が発生し、誰もサイン オンできないと分かった時点で、IBMおよびインシデント管理チームとの連携のもと、スイッチを切り換える必要があると判断されました」とMcCauley氏は述べます。「決断が下され、プロセスが開始されました。非常に迅速でした。DRサーバーが稼働し、誰もが接続し、ログオンして作業を続けることができました。」
McCauley氏によれば、完了するのに約10分かかった実際のフェールオーバーの処理中に、驚くべきことは何もなかったとのことです。同行のフロントエンド トレーディング システムからバックアップ マシンへリダイレクトするネットワーク変更を行った後、取引が1つも失われることなく、システムはバックアップされました。
「顧客への実際の影響はありませんでした」とMcCauley氏は述べます。「アプリケーションおよびデータという点から見れば、すべてそのままで、最新の状態でした。」
フェールオーバーという点から見れば、すべてが最善に処理されたということになります。フェールオーバーの際、ウエストパックにとって未知のことは何もありませんでした。同行が行ってきた対策が、いざという時に実を結ぶ結果となったわけです。予定通りに新しいパーツがIBMから届き、プライマリSystem i Model 550サーバーは日曜日に復旧しました。もう一度、ロール スワップを行った後、月曜日の朝には、プロダクションサーバーに対して、通常の業務運用に向けた準備を整えることができました。
「何をすべきか、そして、誰が何をすべきかが定められた計画を行ったことで、復旧プロセスがかなり容易になり、信頼性が高まりました。」とMcCauley氏は述べます。「実施していることが正しく、予定通りにすべてが順調に進んでいると確信が持てていました。」
1つだけ、フェールオーバー処理の中で、改善できたであろう点がありましたが、それは同行が対処できるものではありませんでした。Midasの一部はS/36エミュレーション モードで動作し、S/36ファイルを使用します。アプリケーション自体はまったく問題なく稼働していますが、S/36ファイルの複製を行うと、Maxavaのようなリアルタイム データ レプリケーション ツールに問題が生じます。同社にはそうしたファイルを複製する技術はありますが、Maxavaのソフトウェアに組み込まれてはいません。「そうした(S/36)ソフトウェアを利用することは、日に日に、少なくなっています」とMcCauley氏は述べます。「しかし、残念なことに、弊社ではまだ使用しているのです。」
IBM iショップがHAソフトウェアを実装する場合、概して、地震、暴風雨、竜巻といった自然災害によってもたらされるダウンタイムを防ぐことを想定しています。このことは、極めて障害に強いと考えられているIBMハードウェアを使用する場合でも同様です。しかし、実のところ、ITディザスターは、ハードウェア障害の結果として起こるのがほとんどです。IBMのハードウェアは世界的に認められていますが、ハードウェア障害がまったく発生しないというわけではありません。
ほとんどのIBM iショップは、HAソフトウェアが必要となることはありません。購入するとしたらそれは、保険の掛金を支払うか、必要になるとは考えない復旧処理に掛かる費用の頭金を支払うようなものです。しかし、ウエストパック銀行の例では、HAソフトウェアの実装を決めたことで、実質的に非常に大きな利益が得られたことになります。
「それは、決して起こってほしいとは思わない類のことです」とMcCauley氏は述べます。「頭の片隅では、起こり得ることは分かっていますが、起こってほしいと思うことではないのは間違いありません。」