

這是一項大規模的實證研究,作者從三個資料庫收集分析的資料:arXiv, bioRxiv 以及Nature旗下15種期刊(包含Nature、Nature Biomedical Engineering、Nature Human Behaviour、Nature Communications等)。作者從2020年1月到2024年9月每個月隨機從bioRxiv及Nature的期刊中各蒐集上限為2,000篇文章;arXiv中則是每種學科(電腦科學、數學、物理學等)各蒐集上限2,000篇文章。研究資料總計1,121,912篇文章,其中有861,253篇來自arXiv、205,094來自bioRxiv、55,565是Nature等期刊的文章。
研究主要分析論文的前言(introduction)部分,分析ChatGPT發布前的論文的字頻及使用過大型語言模型(LLM)修改過的文本資料庫;研究使用2020年的資料訓練模型,再利用2021年1月之後的資料來做驗證及推論。
研究發現在摘要及前言的部分使用LLM修改的比例呈現穩定成長,研究觀察到在電腦科學文章中的比例是最高,成長速度也最快;成長速度最快的第二種學科是電機及系統科學;相反地,數學領域及Nature期刊則是呈現小幅度增長。除此之外,出版預印本頻率較高、在競爭比較激烈的研究領域的第一作者也比較常使用LLM做修改;比較短的文章使用LLM修改的頻率也高於長篇文章,顯示研究者若想有高產量的文章的話,就比較會依賴LLM。最常使用AI修改的段落是摘要(abstract)、前言及結論,研究方法的段落相對少,顯示研究者喜歡使用AI進行概述(summarization)。
該研究結果顯示,大型語言模型已經被廣泛使用在學術寫作中了。
全文摘譯自
Quantifying large language model usage in scientific papers