Power11、メモリー帯域幅を最大限に向上
先週の記事では、IBMの次世代Power11プロセッサーと、その後継となるPower Nextチップ(Power 12と呼ばれると思われます。これまでの経緯から)のロードマップにじっくり目を通してみました。今週は、Power11の戦略について、そして今後IBMが構築するシステムにとってその戦略がどのようなことを意味するかについて、もう少し深く掘り下げてみようと思います。
Power9世代以降のPower SystemsでのIBMの戦略の変化がはっきり分かりにくいとしたら、少し触れておくのも無駄にはならないでしょう。Power8およびPower9世代でIBMが目指していたのは、スーパーコンピューター ビジネスを維持・拡張すること、ならびにハイパースケーラーやクラウド ビルダーに、インフラストラクチャーおよびデータベース ワークロード向けにPowerベースのプロセッサーをインストールしてもらうこと、ならびにコア数およびスループットで今後のX86およびArmマシンと張り合いながらも、大型のNUMAボックスで従来のリレーショナル データベースのバックエンドならびに最新式のSAP HANAインメモリー データベースをサポートすることでした。
「ならびに」が多く、IBMのシステム アーキテクトがかなりたくさんの指示に振り回されて大変だと思ったとしても無理はありません。HPC市場がIBMにとって財務的に魅力がなくなったのと同じ頃に、IBMは、PowerプロセッサーのファウンドリーをGlobalFoundries社(IBM Microelectronics事業の買収先)からSamsung社へ切り換えなければなりませんでした。結果的に、IBMにはPower10をいったん白紙に戻す機会がもたらされ(実際、そうなりました)、メモリー サブシステムを手直しするのと同時に新たなPower命令セット アーキテクチャー実装をゼロから作り直し、行列演算ユニットを追加して、そのような演算に適しているAIワークロードや他のHPCジョブをサポートするようになりました。
そのようして、48コアではなく16コアのPower10チップを手にすることになりました。そして、それらのコアは、その前身に比べて、はるかに多くの処理をはるかに効率的に行います。また、標準的なDDRメモリーで、そしてOpenCAPI Memory Interface(OMI)シグナリング(DDRメモリーが非常に高いクロック周波数で動作しなくてもそうした高い帯域幅に到達)で他のどのプロセッサーが実現できるのよりも、はるかに多くのメモリー帯域幅およびメモリー容量を実現します。
Power11プロセッサーについてと言えば、おそらくメモリーを重点的に取り上げるのが一番でしょう。メモリーは、Powerアーキテクチャーでは演算能力と少なくとも同じ程度に重要であり、ここ数世代でますます重要になっているからです。Power SystemsのDE(Distinguished Engineer)で、Power10およびPower11プロセッサーのチーフ アーキテクトであるBill Starke氏が、『The Four Hundred』に提供してくれた以下の図では、2001年のPower4世代から、2021年に公開されたPower10プロセッサーまでの間での演算能力の向上が示されています(ちなみに、Power4もPower10も、最初の搭載はビッグ アイアン マシンで、1年後にエントリーおよびミッドレンジ マシンに搭載されました)。

ところで、この図ではメモリー帯域幅の増加については示されていないので、補足しておこうと思います。Power4プロセッサーでは、1対1で直接DDRメイン メモリーに直接フィードするL3キャッシュへの帯域幅は10 GB/秒でした。これらのPower4チップは、セラミック製のクアッド チップSMPパッケージ上に置かれ、Power4チップからのI/Oの一部はメモリー用に使用され、残りはパッケージ上の他のチップへのNUMAリンク用に使用されました。そして、複数のパッケージがつながって、より大きな共有メモリー システムが形成されます。
2021年のPower10プロセッサーでは、Power10チップ上の各OMIコントローラーからのメモリー帯域幅は51.2 GB/秒で、合計16のリンクがパッケージ上にあり、OMIインターフェースとの間では819.2 GB/秒の総ピーク帯域幅となり、Power10ソケットでは400 GB/秒のメモリー帯域幅となります。帯域幅は40倍に増加したということです。
Power11チップでは、メモリー帯域幅は演算能力に追い付き始めるでしょう。IBMは、1ポートの差動DIMMメモリーの「Explorer」DDR4 OMIメモリー カードから、2ポートの差動DIMMで、次世代のOMIコントローラーからのはるかに高速な76.8 GB/秒の帯域幅で動作するOMIポートを持つ、次世代「Odyssey」DDR5 OMIメモリー カードへと移行するためです(Power10およびPower11プロセッサー向けのExplorerおよびOdysseyメモリー カードについては、DDR5メモリーを使用しているOdysseyカードがPower10マシン向けに利用可能となった 8月に 、コードネームを知らないままでしたが記事で取り上げています)。
「新しいメモリーでのPower11を楽しみにされているのだとしたら、OMIチャンネルの速度は50%増となります」とStarke氏は『The Four Hundred』に述べています。「そして、バッファーに出ると、バッファーの後ろに1つのポートではなく、2つのポートがあります。結局のところ、DDR4からDDR5への移行だけで帯域幅は3倍増です。」
16個のOMIコントローラーで、OMIポート全体で合計1,228.8 GB/秒の帯域幅となります。そしてIBMは、ソケット当たりのメモリー帯域幅を1,200 GB/秒へ上げることができ、これはPower10に比べて3倍となります。

したがって、Power4と比べると、チップ当たりのメモリー帯域幅は120倍ということになります。チップ レベルでPower4プロセッサーからPower11プロセッサーへ移行した場合に予想されるパフォーマンスの向上幅も、これくらいになると思われます。Power11は、IBMのより微細な7ナノメートル プロセスを使用してエッチングされているため、Power10からPower11への移行では、コア当たりまたはソケット当たりの大幅なパフォーマンス向上は期待されません(20%くらいかもしれません)。
(ところで、上図ではOMIポートが15個しか描かれていませんが、その点は無視してください。単なる描画のミスです。Power10およびPower11にはどちらも、OMIポートは16個あります)。
生のパフォーマンスの指標としては、CPWよりもrPerfの方が有用だとすれば、Power4からPower11でのパフォーマンス向上幅は、メモリー帯域幅の増加が120倍であるのに対して、135倍ほどということになるでしょう。Power11は、どちらかと言えば、パフォーマンスのバランスの取れたPower10とでも言えそうなものです。
3.2 GHz DDR5メモリーを使用してPower11ソケット当たり1,200 GB/秒という帯域幅を他と比較してみるとすれば、AMD社の「Genoa」 Epyc 9004プロセッサーは、4.8 GHz DDR5メモリーを使用してソケット当たり460 GB/秒のメモリー帯域幅を実現します。Intel社の「Granite Rapids」 Xeon 6プロセッサーは、6.4 GHz DDR5メモリー チップを使用して614 GB/秒を実現します。そしてIntel社は、MCR(Multiplexed Combined Rank) DDR5メモリー(Intel Xeon 6プロセッサーでのみ使用可能で、非常に高速な8.8 GHzで動作)へ移行して、メモリー帯域幅をソケット当たり844 GB/秒にまで引き上げることができます。
「私たちは、物凄く速い速度でDDR5を稼働する必要はありません。他の会社は、自社のプロセッサー ソケットに依存して、不安定ながらも何とかしようと奮闘しているようですが」とStarke氏は誇らしげに述べます。「私たちには、ファン アウトのおかげで、もっと多くのポートを使えばよいと言える余裕があります。シングル プロセッサー ソケットに32個のDDR5ポートがあります。つまり、業界の他の誰がこのようなことを実現することができるでしょうか。演算能力の向上のペースが、メモリー帯域幅の向上のペースより速いと、絶え間なく奮闘が続きます。こうしたギャップの拡大があるわけです。しかし、Power4からPower10およびPower 11へと移行した間に、演算能力を向上させたのと同じ割合でメモリー帯域幅を向上させ続けてきたのです。」
こうしたことをうまくこなしつつ、容量を犠牲にすることのなかったアーキテクチャーは、他にはないでしょう。もっとも、HBMスタックドDRAMメモリーは帯域幅を上げるためにそうしているようですが。
ところで、今、Power10マシン向けにOdyssey DDR5メモリー カードを購入した場合、それらのカードは、将来、Power11マシンでも利用することができます。もっとも、相性はPower11との方がよいでしょう。Power11はDDR5向けに調整が施されているためです(おそらくDDR6もそうだと推測されます)。
次回の記事では、最新のワークロードに向けてこれらのシステムのパフォーマンスおよび適用性を向上させるために、Power11システム スタックを徹底的に最適化するためのIBMのアプローチについて取り上げる予定です。