スペイン発の基盤モデル「ALIA-40b」──早すぎた公開と今後の課題

スペインで開発された基盤型AIモデルALIA-40bは、公開時点で十分に訓練・調整されておらず、当初の期待と比べて性能面で課題が露呈した。開発はバルセロナスーパーコンピューティングセンター(BSC-CNS)が統括している。
プロジェクトの概要と公開経緯
ALIA-40bは大規模な多言語の基盤モデルで、MareNostrum 5を利用して訓練が行われたと説明されているが、訓練トークン数や工程は当初の計画より制限された状態での公開となった。BSC-CNSの紹介文では40,000百万(40B)パラメータ、初期訓練で6.9兆トークン(最終的には最大9.2兆を想定)とされる説明がある(BSC-CNSの記述はそのまま保持する)。
なぜ「早すぎた」公開になったのか
開発責任者の説明によれば、公開は「技術的判断」ではなく戦略的・運用的要因で行われ、予定していた長期の事前訓練が途中で中断されたためである。チームは当初、12兆トークン(12T)での訓練を目指していたが、実際には2.3兆トークンでモデルを公開せざるを得なかった。
技術的に何が足りなかったか
- 事前訓練(pre-trained)段階のみで公開され、対話指向の応答や安全性を担保するInstruction TuningやAlignmentが未実装だった。
- 訓練で用いる学習率スケジューラはコサインベースが採用され、最終段階での低学習率による微調整が十分に行われていなかった。
- 推論用の公開プラットフォーム(例:チャットインターフェース)や利用状況のメトリクスが存在せず、利用者からのフィードバックを得られない状態だった。
性能評価と批判
初期のベンチマークでは、ALIA-40bの性能は既存の公開モデル(例:Llama-2-34b等)と比較して高くはなく、いくつかの独立した検証では期待を下回る結果が報告された。たとえば、大学の研究では数学の選択式試験で他のLLMより低い得点となり、「推測した方が良い」ほどの成績だったという評価がある(研究の記述は原文のまま保持)。
データ利用と法的・倫理的配慮
訓練データにはCommon Crawlのような大規模公開コーパスが含まれており、著作権に関する議論が伴っている。報道では、当該訓練は現行法と「データマイニングの例外規定」に基づくと説明される一方で、著作者側には複雑な異議申し立て手続きが要求されることが指摘されている。開発チームは規約遵守のためにデータセットを再生成する必要があると述べている。
計算資源と運用上の制約
MareNostrum 5上でのノード利用は限定的で、開発初期には最大で512ノードのうち一部を使えた期間があったが、長期的には256ノード、さらに128ノードへと削減され、現在は推論用の専用ノード数がさらに制限されている。これにより多様な試行錯誤や反復訓練が難しく、商用大手のように何百回ものバリエーションを作ることができなかった。
現在の改善点と短期的な見通し
その後の訓練や更新で改善が進み、コンテキスト長は当初の4Kトークンから160Kトークンへ拡大されたほか、バスク語やカタルーニャ語、ガリシア語での性能向上が報告されている。開発チームは年末までに「命令に従う指示チューニングを持つ、利用可能なバージョン」を目標にしている。
運用・社会的意義と今後の課題
チームの立場は、ALIAがChatGPTやGeminiと競合することを目的とするのではなく、言語主権や透明性、文化的整合性を重視した「公共代替」を目指す点にある。具体的には、偏見(ジェンダー、人種、年齢)を抑制し、完全なトレーサビリティと透明性を維持することが掲げられている。
残された技術的タスク
- Instruction TuningとAlignmentによる安全性・応答品質の向上。
- レッドチームによるジャイルブレイク試験の継続。
- 推論(インファレンス)インフラの整備と公開プラットフォームの提供(現状は推論用の公開サイトがない)。
- 著作権やデータ利用に関する法的整理と、再生成されたデータセットの検証。
結びとして
ALIA-40bの初期公開は「未成熟な段階での公開」であったが、その後の改善と透明性を軸にした開発方針は、言語多様性や公共性を重視する観点で意義がある。今後は技術的・法的・運用的な課題を解消し、指示対応や安全性を備えた実用的なモデルへと成熟させていく必要がある。





