NVIDIA、物理世界を理解するマルチモーダルAI「Nemotron 3 Nano Omni」を発表

NVIDIAは、視覚・音声・言語を統合したNemotron 3 Nano Omniを開発した。このモデルは、物理ロボットやAIエージェント向けに設計されている。8年前のロボット工学への取り組みが実を結ぶ。

Omniモデルとは何か？

Omniモデルは、厳密なマルチモーダルAIである。テキスト、画像、音声、動画を単一のニューラルネットワークで処理する。

従来モデルは各モダリティを別々に扱う。Omniモデルは端から端まで訓練され、自然で高速な相互作用を実現する。

カメラ映像を「見る」AIが状況を即座に分析する。テキストモデルが動画モデルに問い合わせる遅延を排除する。

人間のように刺激に素早く反応する。3倍の性能で、2.75倍少ない計算資源で動画推論を行う。

NVIDIAはブログで発表した。Nemotron 3 Nano Omniは視覚・音声・言語を1つのアーキテクチャに統合する。

MoE（Mixture of Experts）ハイブリッド構造を採用。300億パラメータ中、30億を推論に使用する。

別モデル比9倍高速。フラグメント化されたワークフローを解消する。

一般消費者向けではない。企業向けツールとしてHugging FaceやDGX Spark、Jetsonで利用可能。

ローカルシステムに展開。誰でもアクセスできない。

Jensen Huang CEOは最近講演した。AIは仕事を奪わず、「マイクロマネジメント」する存在になると述べる。

AIエージェントの全能性を推進。物理・デジタル融合を加速させる。