CNMVの研究:AIは株式投資に有効か?LLMの性能を検証

スペイン証券市場監督庁(CNMV)が大規模言語モデル(LLM)の投資性能を10ヶ月間検証した。曖昧な指示では失敗するが、詳細なプロンプトで優位性を示す。リスクを警告しつつ、監督下での可能性を指摘する。
CNMVの研究概要は何ですか?
Ricardo CrisóstomoとDiana Mykhalyukの研究者が論文を公開した。4つのAIモデルを2025年4月から2026年1月まで実市場でテストした。
対象モデルはChatGPT、Gemini、DeepSeek、Perplexity。毎月Ibex35指数のトップ5買い株とボトム5売り株を予測させた。
実績で評価した。市場が唯一の判断基準となった。
モデルはどのように進化したか?
10ヶ月間で各モデルのバージョンが複数回更新された。Geminiの2025年4月版と2026年1月版は異なる。
性能変動の原因はプロンプト戦略、市場状況、モデル更新のいずれか不明。研究者はこれを方法論的課題とした。
プロンプトの質が結果を決める理由は?
3種類のプロンプトをテストした。結果は監督次第だった。
- 曖昧な質問(例:「どの株を買う?」)では全般的に失敗。計算ミス、誤解釈、幻覚が発生した。ChatGPTのみ利益を出した。
- 反復修正と人間監督付きの詳細プロンプトでは、PerplexityがIbex35に対し月3.5%のリターンを達成。GeminiとChatGPTも改善。DeepSeekは最低。
- 公式規制文書や企業報告を与えると予測精度が大幅向上。検証済み事実でLLMの推論が強化される。
金融市場でのAI幻覚のリスクとは?
金融市場はAIに厳しい。情報収集、多段階推論、数値精度、リアルタイム知識を要求する。
LLMは説得力あるテキスト生成に最適化されている。誤った投資推奨でも自信満々に提示する。
検証なしの使用は危険。AIを盲信するな。
Redditの実験結果はどうだった?
2024年11月、RedditユーザーBlotter-fyiがプラットフォームRallies.aiを構築。AIにリアルタイム金融データと資金を与えた。
4ヶ月後、S&P指数が7%下落中、5モデルが指数を上回った。絶対利益は2モデルのみ。
著者自身、4ヶ月は短く運やプロンプト次第と警告した。
Nof1の暗号通貨実験の教訓は?
nof1.aiのAlpha Arenaで6モデルに各10,000ドルを与え、2週間無人取引させた。
GPT-5は25%以上、Geminiは約40%損失。中国モデルQwenとDeepSeekが優位。
32モデル中、6つのみ利益。Grok-4.20が首位。
| 実験 | 期間 | 主な結果 |
|---|---|---|
| CNMV | 10ヶ月 | 詳細プロンプトで3.5%月リターン |
| 4ヶ月 | 5モデルがS&P上回るが短期 | |
| Nof1 | 2週間 | 32中6つ利益、中国モデル強し |
AI投資の結論と推奨は?
実験はAIの優位性を証明しない。短期成功は運や市場次第。
長期的検証が必要。良好な監督で強力ツールとなりうる。
無監督使用は避けよ。
よくある質問 (FAQ)
- どのAIが最高? 詳細プロンプトでPerplexityが優秀。
- リスクは? 幻覚と曖昧指示で失敗多発。
- 改善策は? 反復修正、人間監督、公式文書使用。





