logo logo
焦點觀點
::: 首頁 焦點觀點專欄 AI與論文工廠濫用健康資料集,引發學術界警覺

AI與論文工廠濫用健康資料集,引發學術界警覺

2025-08-05
TAG Paper mills AI generated text Scientific publishing Data exploitation Research integrity 論文工廠 人工智慧生成內容 學術出版 數據濫用 研究誠信

2022年起,科學期刊《Scientific Reports》的副主編Matt Spick開始注意到大量內容近似、架構雷同的論文湧入投稿。這些論文幾乎全都使用美國國家健康與營養檢查調查(NHANES)資料庫,該資料庫涵蓋超過13萬人的健康資訊,是公共健康領域的重要資源。然而,論文內容卻反覆套用公式化模式,例如探討維生素D與抑鬱、牙齒健康與糖尿病之間的關聯,僅改變研究對象的年齡或性別。這讓Matt Spick察覺,這些論文可能出自「論文工廠」。

Matt Spick與同事在《PLOS Biology》發表研究指出,NHANES資料近年來被大量用於低品質研究。他們搜尋了PubMedScopus資料庫,發現從20142021年間,每年約有四篇使用NHANES分析單一變項關聯的論文,但到了202410月,這類論文數量已暴增至190篇,增幅遠超其他公共健康資料集的正常增長。

研究團隊認為,這與生成式人工智慧(如ChatGPT)的興起密切相關。AI工具能快速產出語句通順、結構完整的學術文字,使得論文工廠能以「填空式」方式大量生產研究成果。這些論文雖形式正確,但缺乏真正的學術創新,甚至存在統計設計不嚴謹、結果不具意義等問題。研究者為達到「顯著結果」而選擇性分析資料,例如只取特定年份、年齡層進行比對,進一步提高假陽性機率。斯皮克指出,他們檢視28篇關於憂鬱症的NHANES研究中,只有13篇結果經過適當統計調整。

值得注意的是,自2021年以來,92%的相關論文第一作者隸屬中國機構,而此前這個比例僅為8%。斯皮克認為,這可能與中國學術界對論文數量的高度要求有關,研究人員在升遷與補助壓力下,尋求透過論文工廠快速發表。這類工廠以商業模式運作,甚至販售虛假或重複內容的論文署名權。

這波論文激增不僅限於NHANES。西北大學的元科學家Reese Richardson指出,他觀察到遺傳學、文獻計量學、性別研究等領域也出現類似情況。這些免費且結構清晰的資料集,容易被程式操作並生成大量「新」研究。例如,他利用快速搜尋就發現五篇疑似論文工廠產出的NHANES研究未納入Matt Spick團隊的分析。此外,像「全國住院患者樣本」等大型資料庫,也可能成為類似濫用的對象。

對此,出版業者已開始回應。Springer Nature 表示,旗下包括《Scientific Reports》和《BMC Public Health》在內的期刊已撤回部分NHANES論文,並正進行進一步調查與內部警示。BMJ集團亦強調對論文工廠與AI濫用問題保持警覺,強化審查流程。

然而,這只是問題冰山一角。Reese Richardson指出,開放取用的期刊往往向作者收費發表,一篇論文約1000美元,這讓論文工廠有利可圖。他警告,若不改革目前以論文數量為導向的評價制度,科學界將持續受到不良動機驅動。「我們看到的,不只是資料濫用或AI濫用的問題,而是整個學術出版生態的結構性危機。」

Matt Spick表示,透過簡單程式碼,他的團隊就能自動從NHANES資料中提取變項組合,這代表任何具備基本技術的研究者也能輕易複製這樣的論文生產流程。他擔心,這種「工業化」的低品質研究不僅會稀釋真正有價值的研究成果,也會讓學術文獻失去可信度。「老實說,我對此感到非常惱火,」他說。

 

https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai

回索引頁