AI時代のメモリ不足はどこへ向かうのか

メモリ不足は、個人向けのRAM不足だけではない。AIを訓練し、展開し、提供する大規模なデータセンターでも、同じ問題が深刻化している。The Next Platformが示す流れは、サーバー内部だけでなく、外部の大規模メモリ基盤へ設計を広げる必要性を示している。
なぜメモリは「サーバーの外」に移るのか
メモリの配置が変わりつつある。従来の考え方では、各マシンが自分のRAMを持つことが前提だった。だが、今後のサーバーはローカルメモリを残しつつ、必要な容量の大部分を外部の共有システムへ置く方向に進む可能性がある。
この考え方は、すでにストレージでは珍しくない。データは、端末内、別のマシン、共有システムのいずれにも置ける。メモリでも同じ発想を採用し、複数のサーバーが必要に応じて容量を分け合う構成が検討されている。
- ローカルに残すもの: 低遅延が必要な最小限のRAM
- 外部に置くもの: 大量の容量を持つ共有メモリ基盤
- 狙い: 必要なときに容量を柔軟に割り当てること
この構想は、いわゆる“memory godbox”と呼ばれている。これは、単一のマシンに固定されない巨大なメモリ・クラスターを指す。
Compute Express Linkは何を変えるのか
Compute Express Link、すなわちCXLは、柔軟なアーキテクチャを支える技術として長く期待されてきた。基盤にはPCIeがあり、プロセッサー、メモリ、アクセラレーター、周辺機器を整合的に接続できる。
CXLの狙いは単純だ。資源を分離しながらも、あたかも一体で動いているように扱うことだ。だが、実装は容易ではない。
CXLはどこまで進んだのか
CXLは一気に普及したわけではない。初期段階では、PCIe互換スロットに接続したモジュールで、サーバーのメモリを拡張する用途が中心だった。
次に、CXL 2.0で変化が起きた。memory pooling が登場し、メモリを共通プールにまとめて、複数マシンへ割り当てられるようになった。
ただし、この段階では制約が残った。メモリは再割り当てできたが、2台のシステムが同じデータを本当に共有する形ではなかった。
CXL 3.0では境界がさらに動く。CXL 3.0 は、より大きなトポロジーと、マシン間で共有されるメモリを導入する。ただし、技術的な制限は残る。
| 段階 | 主な内容 | 意味 |
| CXL 初期 | PCIe互換メモリ拡張 | 単一サーバーの容量増加 |
| CXL 2.0 | memory pooling | 共通プールからの動的割り当て |
| CXL 3.0 | マシン間共有メモリ | 複数システムでの共有へ前進 |
AIはなぜこんなにメモリを必要とするのか
The Next Platformによると、AIの制約は計算能力だけではない。メモリ不足も大きな問題だ。特にHBMは高速だが、容量は限られ、コストも高い。
訓練では、大量のデータを処理してモデルを作る必要がある。推論では、学習済みモデルに対して、ユーザーの要求へ応答する必要がある。両方の工程で、メモリの使い方は異なるが、どちらも大容量を求める。
- 訓練: 巨大なデータ処理が中心
- 推論: 応答生成のための高速アクセスが中心
- HBM: 速いが高価で容量が限られる
KV cacheはなぜ重要なのか
言語モデルの応答は、tokenごとに少しずつ作られる。毎回すべてを再計算しないために、システムはKV cacheと呼ばれる作業用メモリを保持する。
The Next Platformは、ここに前の注意ベクトルが保存されると説明している。これにより、モデルは文脈を保ちながら応答を生成できる。
ただし、多数の利用者がいるサービスでは、KV cacheが極端に大きくなる。場合によっては、モデル本体よりも多くのメモリを占有する。
すでに実装は始まっているのか
この発想は、もはや理論だけではない。The Register は、Panmnesia、Liqid、UnifabriXを、サーバー外へメモリを運ぶ取り組みを進める企業として挙げている。
各社の方式は異なる。CXL switchを使うものもあれば、複数のホストへ配分できる大規模なDDR5在庫を使うものもある。
The Next Platformはさらに、EnfabricaとそのEmfasysを取り上げている。これは推論向けに設計され、同媒体によれば、サーバーあたり18 TBのDDR5、ラック全体で144 TBに達する。
この流れは何を意味するのか
結論は明快だ。業界が求めているのは、単により多いメモリではない。AIが使いやすい形で、メモリを別の場所に置くことだ。
その方向性は、計算資源とメモリ資源を切り分ける設計を後押しする。データセンターは、より柔軟な共有基盤を前提に動く可能性がある。
FAQ
「memory godbox」とは何ですか?
memory godboxは、単一マシンに閉じない巨大なメモリ・クラスターを指す表現だ。複数のサーバーが共有できる大規模メモリ基盤を意味する。
CXLはなぜ注目されているのですか?
CXLは、プロセッサー、メモリ、アクセラレーターを整合的に接続できるからだ。PCIeの上に成り立ち、柔軟な資源共有を可能にする。
AI推論でKV cacheが重要なのはなぜですか?
KV cacheは、前の文脈を保存するために使われる。これにより、モデルは毎回最初から計算し直さずに応答を続けられる。
この問題はいつから見えてきましたか?
記事では、2025年7月29日のThe Next Platformの記事が参照されている。また、2026年5月10日のThe Register も、この潮流を取り上げている。





