CNMVの研究:AIは株式投資に有効か?LLMの性能を検証

スペイン証券市場監督庁(CNMV)が大規模言語モデル(LLM)の投資性能を10ヶ月間検証した。曖昧な指示では失敗するが、詳細なプロンプトで優位性を示す。リスクを警告しつつ、監督下での可能性を指摘する。

CNMVの研究概要は何ですか?

Ricardo CrisóstomoDiana Mykhalyukの研究者が論文を公開した。4つのAIモデルを2025年4月から2026年1月まで実市場でテストした。

対象モデルはChatGPTGeminiDeepSeekPerplexity。毎月Ibex35指数のトップ5買い株とボトム5売り株を予測させた。

実績で評価した。市場が唯一の判断基準となった。

モデルはどのように進化したか?

10ヶ月間で各モデルのバージョンが複数回更新された。Geminiの2025年4月版と2026年1月版は異なる。

性能変動の原因はプロンプト戦略、市場状況、モデル更新のいずれか不明。研究者はこれを方法論的課題とした。

プロンプトの質が結果を決める理由は?

3種類のプロンプトをテストした。結果は監督次第だった。

  • 曖昧な質問(例:「どの株を買う?」)では全般的に失敗。計算ミス、誤解釈、幻覚が発生した。ChatGPTのみ利益を出した。
  • 反復修正と人間監督付きの詳細プロンプトでは、PerplexityIbex35に対し月3.5%のリターンを達成。GeminiChatGPTも改善。DeepSeekは最低。
  • 公式規制文書や企業報告を与えると予測精度が大幅向上。検証済み事実でLLMの推論が強化される。

金融市場でのAI幻覚のリスクとは?

金融市場はAIに厳しい。情報収集、多段階推論、数値精度、リアルタイム知識を要求する。

LLMは説得力あるテキスト生成に最適化されている。誤った投資推奨でも自信満々に提示する。

検証なしの使用は危険。AIを盲信するな。

Redditの実験結果はどうだった?

2024年11月、RedditユーザーBlotter-fyiプラットフォームRallies.aiを構築。AIにリアルタイム金融データと資金を与えた。

4ヶ月後、S&P指数が7%下落中、5モデルが指数を上回った。絶対利益は2モデルのみ。

著者自身、4ヶ月は短く運やプロンプト次第と警告した。

Nof1の暗号通貨実験の教訓は?

nof1.aiAlpha Arenaで6モデルに各10,000ドルを与え、2週間無人取引させた。

GPT-5は25%以上、Geminiは約40%損失。中国モデルQwenDeepSeekが優位。

32モデル中、6つのみ利益Grok-4.20が首位。

実験期間主な結果
CNMV10ヶ月詳細プロンプトで3.5%月リターン
Reddit4ヶ月5モデルがS&P上回るが短期
Nof12週間32中6つ利益、中国モデル強し

AI投資の結論と推奨は?

実験はAIの優位性を証明しない。短期成功は運や市場次第。

長期的検証が必要。良好な監督で強力ツールとなりうる。

無監督使用は避けよ。

よくある質問 (FAQ)

  • どのAIが最高? 詳細プロンプトでPerplexityが優秀。
  • リスクは? 幻覚と曖昧指示で失敗多発。
  • 改善策は? 反復修正、人間監督、公式文書使用。
Anzai Hotaka

10 年の経験を持つコンピュータ エンジニア。Linux コンピュータ システム管理者、Web プログラマー、システム エンジニア。