Talkie-1930：1930年以前のデータで訓練されたAI言語モデルが過去の知性を再現

言語モデルの訓練データに1930年以前のテキストのみを使用したTalkie-1930が登場した。このモデルは現代知識を排除し、過去の視点から未来予測や創造性をテストする。AI研究の新たなツールとして注目を集めている。

なぜ1930年以前のデータを使うのか？

通常の言語モデルは訓練データのカットオフ日以降の事実を知らない。特定の分野で深刻な問題となる。

Talkie-1930はこれを解決する。1930年以前の書籍、新聞、テキストのみで訓練された。

Talkie-1930は13,000百万パラメータのモデルだ。歴史的内容で訓練され、インターネットアクセスなし。

研究者はClaudeと対話させた。モデルは時代詳細やディケンズ風スタイルを再現した。

Talkie-1930は20世紀初頭の人物との会話を実現する。過去の社会・政治・日常を覗く窓となる。

AI機能研究のコントロール被験体としても有用だ。進展を促進する。

1930年に「凍結」されたモデルは、歴史パターンから未来を推測する。5,000件の後世イベント記述を示した。

New York Timesの「On this day」セクションを使用。モデルの驚き度を測定した。

年代	驚き度
1950-60年代	高くピーク
それ以降	安定

研究者は長期予測が向上すると指摘。より古いモデルで検証必要。

Talkie-1930は創造性を観察するツールだ。

現代データ訓練モデルは評価データ混入で能力過大評価が生じる。

ビンテージモデルは純粋。プログラミング学習実験が可能。Talkie-1930はオープンソースでHugging Faceで入手可。