Google、動画編集向けAI「Gemini Omni Flash」を発表

Gemini Omni Flashは、画像・音声・動画・テキストを手がかりに、自然言語で動画を生成・編集するための新しいAIモデルです。Google DeepMindは、静止画像を動きのある映像へ変え、場面の整合性を保ちながら編集できる点を強調しています。

Gemini Omni Flash とは何か

Googleは、Gemini OmniをNano Bananaの動画版として考えてほしいと案内しています。Nano Bananaは、Googleの画像生成AIとして大きな注目を集めました。

第一世代のNano Bananaは2025年8月に公開されました。4日で1,300万人のユーザーを獲得し、10月中旬には50億枚以上の画像が生成されました。

Googleは、Gemini Omni Flashを「あらゆる入力からコンテンツを作る」ためのモデルとして説明しています。ユーザーは画像、音声、動画、テキストを組み合わせ、Geminiの世界知識を使って高品質な動画を作成できます。

動画編集では、動き、時間、物理、登場人物の整合性を保つ必要があります。Googleは、Gemini Omni Flashがこの課題に対応し、編集作業をより簡単にするとしています。

同社の説明では、単に動画をゼロから作るだけではありません。1本のシーンに対して連続した指示を与え、内容を段階的に変えられます。

Googleは、要素の一部だけを変える使い方から、動画全体を別の表現へ変える使い方まで想定しています。変更できる対象には、美術、動作、環境、カメラアングル、スタイル、個別の詳細が含まれます。

また、登場人物の一貫性、場面の連続性、より自然な物理挙動も維持するとしています。

Googleは、Gemini Omni Flashの利用例として、自然言語の指示をいくつか示しています。指示は短く、具体的です。

“Make the sculpture out of bubbles”
“When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person’s arm turns into reflective mirror material”
“Claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate”

これらの例は、単純な変換だけでなく、複雑な概念を視覚的に説明する用途にも向いていることを示しています。

公開された説明では、プエルタ・デ・アルカラの静止画像を使った試用が紹介されています。入力は写真で、指示は次の内容でした。

“Create a video from this image. Cars are moving forward and people are walking.”

この試みでは、元の画像から動画を生成し、車が前進し、歩行者が移動する映像が作られました。音声も場面に合っていたとされています。

また、車両に見えるブランド要素の一部は保持されていた一方で、Fiatなど一部の例では判別がやや難しい結果もありました。

Googleによると、Gemini Omni FlashはGoogle AI Plus、Pro、Ultraの加入者に対し、GeminiとGoogle Flow経由で提供が始まります。

一方、YouTube ShortsとYouTube Create Appでは、無料提供が今週開始されるとしています。