Google、動画編集向けAI「Gemini Omni Flash」を発表

Gemini Omni Flashは、画像・音声・動画・テキストを手がかりに、自然言語で動画を生成・編集するための新しいAIモデルです。Google DeepMindは、静止画像を動きのある映像へ変え、場面の整合性を保ちながら編集できる点を強調しています。

Gemini Omni Flash とは何か

Googleは、Gemini OmniNano Bananaの動画版として考えてほしいと案内しています。Nano Bananaは、Googleの画像生成AIとして大きな注目を集めました。

第一世代のNano Bananaは2025年8月に公開されました。4日で1,300万人のユーザーを獲得し、10月中旬には50億枚以上の画像が生成されました。

何ができるのか

Googleは、Gemini Omni Flashを「あらゆる入力からコンテンツを作る」ためのモデルとして説明しています。ユーザーは画像、音声、動画、テキストを組み合わせ、Geminiの世界知識を使って高品質な動画を作成できます。

  • 入力:画像、音声、動画、テキスト
  • 出力:高品質な動画
  • 特徴:自然言語による生成と編集

なぜ編集の一貫性が重要なのか

動画編集では、動き、時間、物理、登場人物の整合性を保つ必要があります。Googleは、Gemini Omni Flashがこの課題に対応し、編集作業をより簡単にするとしています。

同社の説明では、単に動画をゼロから作るだけではありません。1本のシーンに対して連続した指示を与え、内容を段階的に変えられます。

どのように動画を変えられるのか

Googleは、要素の一部だけを変える使い方から、動画全体を別の表現へ変える使い方まで想定しています。変更できる対象には、美術動作環境カメラアングルスタイル個別の詳細が含まれます。

また、登場人物の一貫性場面の連続性より自然な物理挙動も維持するとしています。

変更対象説明
オブジェクトの素材物体を別の材質に変える
動作人物や物体の動きを調整する
環境背景や場面の雰囲気を変える
カメラアングル視点や構図を変更する
スタイル映像表現の見た目を変える

どんなプロンプト例があるのか

Googleは、Gemini Omni Flashの利用例として、自然言語の指示をいくつか示しています。指示は短く、具体的です。

  • “Make the sculpture out of bubbles”
  • “When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person’s arm turns into reflective mirror material”
  • “Claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate”

これらの例は、単純な変換だけでなく、複雑な概念を視覚的に説明する用途にも向いていることを示しています。

実際の試用では何が起きたのか

公開された説明では、プエルタ・デ・アルカラの静止画像を使った試用が紹介されています。入力は写真で、指示は次の内容でした。

“Create a video from this image. Cars are moving forward and people are walking.”

この試みでは、元の画像から動画を生成し、車が前進し、歩行者が移動する映像が作られました。音声も場面に合っていたとされています。

また、車両に見えるブランド要素の一部は保持されていた一方で、Fiatなど一部の例では判別がやや難しい結果もありました。

誰が使えるのか

Googleによると、Gemini Omni FlashGoogle AI PlusProUltraの加入者に対し、GeminiGoogle Flow経由で提供が始まります。

一方、YouTube ShortsYouTube Create Appでは、無料提供が今週開始されるとしています。

提供先開始状況
Google AI Plus / Pro / UltraGemini と Google Flow 経由で提供開始
YouTube Shorts無料提供を今週開始
YouTube Create App無料提供を今週開始

利用制限はあるのか

実際の試用では、企業アカウントで3本の動画を生成した後、制限に達したという案内が表示されました。システムは、2026年5月20日 19:59まで動画生成の上限に達したと通知しました。

動画生成は計算資源を多く使います。そのため、Googleは少なくとも初期段階では、アクセスを段階的に配分しているとみられます。

Soraとの比較はどうなるのか

動画生成AIの文脈では、Soraも大きな名前でした。OpenAIの有力なモデルとして期待されましたが、サービスの提供状況は変化しています。

Web版とアプリは2026年4月末に利用できなくなりました。ただし、API9月24日まで動作する予定です。

要点まとめ

  • Gemini Omni Flashは、動画の生成と編集を行うGoogleの新しいAIモデルです。
  • 画像、音声、動画、テキストを入力として使えます。
  • 場面の一貫性、人物の継続性、物理の整合性を重視しています。
  • Google AI Plus / Pro / Ultra向けに提供が始まります。
  • YouTube ShortsYouTube Create Appでは無料提供が始まります。

FAQ

Q. Gemini Omni Flash は何をするモデルですか?
動画を生成し、自然言語で編集するためのAIモデルです。

Q. 何を入力できますか?
画像音声動画テキストを入力として使えます。

Q. どこで使えますか?
GeminiGoogle FlowYouTube ShortsYouTube Create Appでの提供が案内されています。

Q. どんな強みがありますか?
編集の一貫性を保ちながら、シーンを段階的に変えられる点です。

Anzai Hotaka

10 年の経験を持つコンピュータ エンジニア。Linux コンピュータ システム管理者、Web プログラマー、システム エンジニア。