CNMVの研究：AIは株式投資に有効か？LLMの性能を検証

スペイン証券市場監督庁(CNMV)が大規模言語モデル(LLM)の投資性能を10ヶ月間検証した。曖昧な指示では失敗するが、詳細なプロンプトで優位性を示す。リスクを警告しつつ、監督下での可能性を指摘する。

CNMVの研究概要は何ですか？

Ricardo CrisóstomoとDiana Mykhalyukの研究者が論文を公開した。4つのAIモデルを2025年4月から2026年1月まで実市場でテストした。

対象モデルはChatGPT、Gemini、DeepSeek、Perplexity。毎月Ibex35指数のトップ5買い株とボトム5売り株を予測させた。

実績で評価した。市場が唯一の判断基準となった。

10ヶ月間で各モデルのバージョンが複数回更新された。Geminiの2025年4月版と2026年1月版は異なる。

性能変動の原因はプロンプト戦略、市場状況、モデル更新のいずれか不明。研究者はこれを方法論的課題とした。

3種類のプロンプトをテストした。結果は監督次第だった。

曖昧な質問（例：「どの株を買う？」）では全般的に失敗。計算ミス、誤解釈、幻覚が発生した。ChatGPTのみ利益を出した。
反復修正と人間監督付きの詳細プロンプトでは、PerplexityがIbex35に対し月3.5%のリターンを達成。GeminiとChatGPTも改善。DeepSeekは最低。
公式規制文書や企業報告を与えると予測精度が大幅向上。検証済み事実でLLMの推論が強化される。

金融市場はAIに厳しい。情報収集、多段階推論、数値精度、リアルタイム知識を要求する。

LLMは説得力あるテキスト生成に最適化されている。誤った投資推奨でも自信満々に提示する。

検証なしの使用は危険。AIを盲信するな。

2024年11月、RedditユーザーBlotter-fyiがプラットフォーム Rallies.aiを構築。AIにリアルタイム金融データと資金を与えた。

4ヶ月後、S&P指数が7%下落中、5モデルが指数を上回った。絶対利益は2モデルのみ。

著者自身、4ヶ月は短く運やプロンプト次第と警告した。

nof1.aiのAlpha Arenaで6モデルに各10,000ドルを与え、2週間無人取引させた。

GPT-5は25%以上、Geminiは約40%損失。中国モデルQwenとDeepSeekが優位。

32モデル中、6つのみ利益。Grok-4.20が首位。