メニューボタン
IBMi海外記事2026.05.13

AI推論のコストを計算し、今後を予想する

Timothy Prickett Morgan 著

ほとんどのIBM i のショップが、過去10年の間にAIを理解しようとすることにあまり多くの資金を費やさなかったことは、おそらく良いことだったのでしょう。最初の世代の機械学習アルゴリズムを開発するには極めて多大なコストが掛かり、しかも、それらの適用可能性は限定的でした。大規模言語モデルおよびそれらの生成機能により、AIのユース ケースは急増してきましたが、トレーニングのコストは、チャットボットのエウレカ モーメント(「創発挙動」と言う人もいます)が起こった2022年末以降、非常に高価になっています。

いわゆる基盤モデル(何億ものパラメーターを持つ非常に大規模なモデル)をトレーニングするコストは、パラメーターおよびデータセットのサイズが大きくなるにつれて上がり続けています(パラメーターの数は私たちの頭脳におけるニューロンの数とよく似ており、AIモデルにおける重みはそうした一群のニューロンにおけるシナプス信号の強度によく似ています)。混合エキスパート(MoE)モデルでも、トータルでは多くのパラメーターを持ちます(MoEモデルでは、エキスパートどうしで対話し合い、情報について熟考して、クエリーが投げ掛けられたら論理的な結論を導き出そうとします)。ただし、回答の質は良くなります。酔っぱらいや5歳児が考えたことと、人生経験を積んだ数人の人達が考えたことくらいの違いがあります。

いずれにしても、たとえどのような比喩を用いたところで、本番でAIを実際に稼働するコストは、結局のところ、トークンと呼ばれるテキストのスニペットを生成するのに掛かるコストということになります(トークンは、実際には、(奇妙なことに)1つの単語ではなく、平均約4文字の文字列です。ただし、言語によって異なります)。データはトークン化されてから、数値ベクトルに変換され、次いで、それを使用して、おそらく生成AIモデルの思考プロセスであるように見えるものを動かす重みが作成されます。したがって、現時点で、そして近い将来に、重要となるのはトークン当たりのコストということになります。

今週、IDC社およびGartner社は、この価格がどれくらい急速に下がってきたか、そして、どれくらい急速に下がり続けると予測しているかについての洞察を提供しています。

以下は、IDC社シニア バイスプレジデントの Matt Eastwood氏がXに投稿した、経時的な動向の要約です。

Eastwood氏は、2020年6月(これは生成AIブームが起こる数年前です)、GPT-3 APIのベータ版が公開されたときに、GPT-3モデルをトレーニングするコストに注目し、そのコストと、OpenAI社(言うまでもなく、GPTモデルの開発元)からのAPIを通じてトークンを生成するのに掛かるコストを比較しています。2020年における100万トークン当たりのコストは、32ドルという途方もない金額でした。ただし、良い知らせは、2020年には、ほとんどのクエリーは短く、ほとんどのコンテキストも短く、そしてほとんどの回答も短かったということです。もちろん、当時は短いものでなければなりませんでした。そして約6年後となる今日では、100万トークンのコストは、10セント未満です。これは、6年で320分の1以下にコストが低減したということです。ムーアの法則による性能向上だけで6倍の向上が想定されるとして、これに、32ビット データから4ビット データでの4倍を掛けて24倍です。トークン当たりのコストにおける残りの13.3倍の向上分は、他のハードウェアおよびソフトウェアの進歩によるものです。

これは、実際に、驚くべきレベルの費用対効果の向上です。

しかし、ライバル会社であるGartner社のリサーチャーによると、そこでは止まらないということです。

IDC社のデータも、上の図の左側のベース(黒色の線)の曲線の2026年の辺りに重なりそうです。そして、2026年から2030年まで、曲線は右肩下がりで、100万トークン当たりのコストは、9分の1に下落することになりそうです。およそ、100万トークン当たり1セントくらいでしょうか。そして確かに、変化のスピードは減速します。これは、取り組むべき物理特性上の制限があるからです。

ちょっと待ってください。誰でもトークンを販売することで金持ちになるのではなかったのでしょうか。結局のところ、混合エキスパート(MoE)モデルは、おそらく、推論の実行に、約100倍~1,000倍多くのトークンを使用するでしょう。したがって、回答を得るための価格は上昇することになります。そして、望まれることとしては、回答の品質が向上するスピードが、価格が上昇するスピードより速いことです。

自分の頭で考えることを好む私たちにとっては、おそらく、それは望ましいことではないのかもしれません。

あわせて読みたい記事

PAGE TOP