AI生成学術論文で「delve」の使用が急増、ナイジェリア英語の影響か

研究者らがPubMedの数百万件の論文要約を分析した結果、2022年から2024年にかけて「delve」の使用頻度が28倍に急増したことが判明。これはChatGPTの普及と一致し、AI生成テキストの特徴を示唆している。

AI特有の語彙パターン

Delve(「深く探求する」の意)の使用が28倍に増加した。これはChatGPTや大規模言語モデル(LLM)のブームと時期が一致する。他の語彙として「underscore」13.8倍)や「showcasing」10.7倍)も挙げられ、これらは内容関連の名詞ではなく、LLM特有の華美な文体を反映している。一グループの研究者らがPubMedの数百万件の論文要約をレビューし、この傾向を発見した。

華美な言語の兆候

これらの語彙が論文に登場すれば必ずAI生成か、というわけではないが、増加率は驚異的だ。研究者らは「delve」の増加を「pandemia」(2020年にピークを迎え2021年から減少)などのキーワードと比較し、delveの増加が他を圧倒的に上回ると指摘している。

ソース: Science

RLHFとナイジェリアの影響

ChatGPTのようなチャットボットの作成プロセスで、人間による微調整段階がある。これをRLHFReinforcement Learning from Human Feedback)と呼ぶ。この作業の多くを担うのはナイジェリアなどのアフリカ諸国在住の労働者だ。そこでこれらの語彙がフォーマルな英語で日常的に使われている

アフリカ英語のスタイル

「delve」はナイジェリアのビジネス英語で一般的で、他に「leverage」「explore」「tapestry」などもそうだ。311instituteによると、人間からのフィードバックは訓練データに比べて少ないが、モデルの応答トーンを決定づける大きな影響を持つ。

データラベリングの現実

大規模言語モデルの訓練に欠かせないデータラベリングも、人間労働に依存する。主な労働者はナイジェリア、ケニア、インドなどの発展途上国出身者だ。過酷な長時間労働と低賃金に加え、暴力的な露骨な画像のレビューを強いられ、心理的支援もない

Anzai Hotaka

10 年の経験を持つコンピュータ エンジニア。Linux コンピュータ システム管理者、Web プログラマー、システム エンジニア。