デジ未来
AI (エーアイ)
ブラウザ内で動作するエージェントと「プロンプトインジェクション」がもたらす脅威

ブラウザ内で動作するエージェントと「プロンプトインジェクション」がもたらす脅威

X (Twitter) Facebook Pinterest LinkedIn Email

ブラウザは単なる閲覧窓から、ウェブ内で操作を行うツールへと変化している。OpenAIのChatGPT Atlasのエージェントはページを閲覧し、クリックやキー入力を人間のように実行でき、その利便性と同時に悪用のリスクも高まっている。

プロンプトインジェクションとは

プロンプトインジェクションは、外部の悪意ある指示を一見無害なコンテンツに紛れ込ませ、AIシステムに正当な命令として解釈させる手法である。IBMはこれを言語モデルに対するサイバー攻撃の一種と説明しており、システムの挙動を操作したり情報漏洩を引き起こしたりできるとされる。

問題の構造：命令とコンテンツの境界が曖昧

多くのアプリケーションは、開発者の指示とユーザー入力を自然言語の文字列として結合してモデルに渡すため、データ型ごとの厳密な区別がない。モデルはテキスト内の文脈や学習したパターンに基づき優先度を判断するため、外部から巧妙に提示された指示が重みを持ってしまう可能性がある。

エージェントが巡回する広範なコンテキスト

文脈の範囲が大きくなるほどリスクは増大する。OpenAIは、メールや添付ファイル、カレンダー招待、共有ドキュメント、フォーラム、SNS、任意のウェブページなどをエージェントが横断的に処理することで、信頼できない指示が正規のコンテンツに混入する可能性を指摘している。

実際の攻撃例と影響

攻撃者が受信トレイに悪意あるメールを「まく（seed）」ことで、エージェントが後続の通常タスク実行時にそのメールを読み取り、意図しない行動を取る事例がある。記事で紹介されたデモでは、無害な自動応答作成の依頼が、エージェントによる退職メール送信という極端な結果を招いた。

完全な防御は存在しない

完璧な防御はありえないというサイバーセキュリティの常識がここでも当てはまる。OpenAIは「攻撃者は適応を続けるだろう。プロンプトインジェクションはウェブ上の詐欺やソーシャルエンジニアリングと同様に完全には解決されにくい」と述べ、脆弱性をゼロにするのではなく、攻撃コストを上げて影響を低減することを目指すと説明している。

OpenAIの対策と運用上の推奨

OpenAIはAtlasエージェント向けに、内部の自動化されたレッドチーミングで発見された攻撃に対処するためのセキュリティアップデートを展開したと説明している。配信内容には、敵対的に訓練されたエージェントモデルとシステム周辺の強化された保護策が含まれており、ナビゲーション中の望ましくない指示への耐性を高めることが目的とされている。