極限に近付きつつあるIBMサーバーの信頼性向上の取り組み
信頼性は、常に、IBMビッグ アイアン(世界各地で何十万もの企業がビジネスを稼働するベースとしているミッドレンジおよびメインフレーム システム)を象徴する特質の1つでした。これらの頑強なシステムは、ダウンすることはめったにありません。「業界標準の」(すなわちIntelベースの)システムに比べて、ダウンの頻度が少ないのは確かです。実のところ、System zおよびPower Systemsは極めて信頼性が高いため、統計データの観点から言うと、改善の余地はほとんど残されていないようです。
アップタイムおよび信頼性に関するデータについては、IT業界アナリストとして長年にわたって活躍しているLaura DiDio氏が率いる、 Information Technology Intelligence Consulting(ITIC) 社が提供しているデータを参考にすることができます。ITIC社は、2009年以降、毎年、サーバーおよびオペレーティング システムの信頼性についての調査を実施してきました(これは、DiDio氏がYankee Group社を離れ、ITIC社を立ち上げて間もなくのことでした)。
世界各地の約1,900社の企業幹部を対象に行われたWebベース調査を基にした、「 2023 Global Server Hardware, Server OS Reliability Survey (2023年世界サーバー ハードウェア、サーバーOS信頼性調査)」で、ITIC社は、IBM i 、AIX、またはLinuxを稼働するIBMのPower10サーバーのユーザーの88%が、99.999999%のアップタイム(8ナインの信頼性)を達成したと回答していることを明らかにしています。これは、「根本的なシステムの欠陥やコンポーネントの故障に起因する」、サーバー1台当たりの年間計画外ダウンタイムが、わずか315ミリ秒であることを意味するとITIC社は記しています。
Power10以上に信頼性が高いシステムは、Linuxまたはz/OSを稼働するIBM z16メインフレームのみでした。ITIC社によれば、z16ユーザーの96%が、自社のビジネスが99.9999999%のサーバー アップタイム(9ナインの可用性)を達成したと回答しているということです。「これは、サーバー ハードウェアおよびその様々なコンポーネントに内在する欠陥に起因する、サーバー1台当たりの年間ダウンタイムが、ほとんど感知できない31.56ミリ秒であることを意味します」とDiDio氏はレポートに記しています。
サーバー業界の他のベンダーで、IBMほどの数字に到達するベンダーはありませんでした。第3位に入ったのは、Linuxを稼働する Lenovo ThinkSystem(2014年10月に IBMが中国企業に21億ドルで売却 するまではIBM System xサーバーだったもの)で、年間ダウンタイムは31.5秒でした。これは6ナイン(99.9999%)の可用性です。
サーバー1台当たりの月間計画外ダウンタイム(分単位/秒単位)
2023年のITIC社の調査における、これらに続いて最も信頼性の高いシステムは、Cisco Systems社、Hewlett Packard Enterprise社、およびHuawei Technology社のLinuxベースのシステムでした。これらは、平均で1.27分~1.39分の年間ダウンタイムとなっています。これは、6ナインの信頼性に相当します。唯一、5ナイン(99.999%)のグループに属するのはFujitsu Primergyで、5.9分のダウンタイムでした。
ここから、ダウンタイムが一段と長くなります。4ナイン(99.99%)のグループには、Linuxを稼働するDell PowerEdge(年間ダウンタイムは24分)、Linuxを稼働するOracle X86(32分)、Oracle OpenSolaris(37分)、およびLinuxを稼働するHPE ProLiant(39分)が入ります。DiDio氏の分析でパフォーマンスが最も低いとされたサーバーは、Linuxを稼働するノーブランドの「ホワイト ボックス サーバー」で、59分の年間ダウンタイムでした。これは3ナイン(99.9%)ということになります。
では、これらの数字を過去のデータと比べてみましょう。適切に比較を行うために、ITIC社のレポートのアーカイブを参照してみます。それによると、PowerおよびSystem zはいずれも、ここ何年かの間に、少なからずアップタイムを増加させてきたことが見て取れます。
2021年の ITIC社のレポート では、Powerサーバーは、平均して1サーバー当たり年間1.49分の計画外ダウンタイムとなっていました。これは、5ナインの可用性です。また、Power9および初期Power 10の顧客の91%が5ナインおよび6ナインの可用性を実現したと回答しているのに対して、IBM System zサーバーの顧客の94%は6ナインおよび7ナインの可用性を実現したと回答しているとITIC社は伝えています。
2016年には、IBM Power SystemsサーバーおよびLenovo System xサーバーの61%が、99.999%の可用性を達成したとITIC社は伝えています。これは、5ナインの信頼性、あるいは1サーバー当たり約5.25分の年間計画外ダウンタイムに相当します。ちなみに、これは2023年版レポートのFujitsu Primergyとほぼ同じです。
まとめると、IBM i 顧客は、過去8年間で、年間想定外ダウンタイムが約5.25分から1/3秒未満へと短縮した恩恵に預かってきたということになります。これは、信頼性が5ナインまたは6ナインから8ナインへ向上したということです。System zメインフレームのショップは、Powerのショップに比べて、ダウンタイムについては10倍の優位性を有していることになります(年間わずか31.5ミリ秒のみ)。
もちろん、IBMは、PowerおよびSystem Zサーバーのダウンタイムを短縮したことについて評価されてしかるべきです。IBMは、業界全体に比べて、より優れた信頼性とセキュリティを備えたシステムの開発で定評があります。そして、IBMがその伝統を守り続けているのは喜ばしいことです。
しかし、実のところは、System zでは、これ以上先には進みようがなく、Powerでも、改善の余地はほとんどないという状況です。計画外ダウンタイムは、1秒に満たないレベルで、すでに極めて短いため、その秒数に対して1,000倍のレベルの改良がなされたとしても、大して変わりないというわけです。
2024年、90%の企業は、ダウンタイム1時間当たりのコストが30万ドルを超えると回答
先日、DiDio氏は、企業に対する ダウンタイムのコストに関する 2部構成のレポートを公開 しました。大半の企業が、ダウンタイムのコストは年間30万ドルを超えると回答しており、20%は、年間500万ドル以上掛かると述べています。これは、明らかに、サーバー業界全体として改善の余地がたくさんある領域と言えます。
しかし、IBMはそうではありません。Power10サーバーの場合、年間ダウンタイムは1秒にも満たないため、平均的な企業は、実際にはあまり大した損失を被っているわけではないとDiDio氏は述べています。「Power10の企業は、サーバー ハードウェアまたは構成パーツに内在する欠陥に起因する計画外のサーバー停止の修復に、サーバー1台当たり年間わずか7.18ドルしか費やしていません」と彼女は記しています。メインフレームのショップなら、さらに少額です。
したがって、次世代のSystem zメインフレームが10ナイン(99.99999999%)の信頼性に到達したり、おそらく来年出荷されるであろうPower11サーバーの信頼性が9ナイン(99.9999999%)へランクアップしたりしたとしても、理論上は素晴らしいことに思えるかもしれませんが、現実的には、そうした改善は顧客の心に少しも変化をもたらすわけではありません。
IBMが自社のエンタープライズ システムを改善できる領域があることは明らかです。セキュリティは、多くの想定外ダウンタイムの原因となっており、IBMが細心の注意を払う必要がある、常に進化し続けている脅威です。まさにこの領域です。また、アプリケーションにおけるエラーやデータに関する問題も、結果的にダウンタイムを引き起こす要因となります。IBMのシステム ビジネスは、システム スタックを超える領域については責任を負いません。率直に言えば、多くのそうしたエラーは、人的要因に端を発するからです。
しかし、プロセッサー、RAM、ドライブ、電源、ネットワーク アダプター、そしてすべてを繋ぎ合わせるファームウェアから成る集合体としての、サーバーそのものの構築に関して言えば、現時点でIBMは、これまで世界に類を見ない最も信頼性の高いシステムを構築しているということです。これに対しては、喝采を送るべきであるのは間違いありません。