::: 首頁｜焦點觀點專欄｜學術出版界嚴查開放健康數據集之亂象

學術出版界嚴查開放健康數據集之亂象

2026-02-24

TAG Paper Mills External Validation NHANES 美國國家健康與營養調查

這篇報導主要探討學術出版商如何應對利用「公開健康數據集」大量產出劣質、甚至疑似 AI 生成論文的現象。

出版商採取強硬手段

由於「論文工廠」（Paper Mills）利用公開數據集（如美國 CDC 的 NHANES）編造大量無意義的科學論文，兩大出版商 PLOS 與 Frontiers 已開始自動退回絕大多數以此類數據為基礎的投稿。

PLOS：要求作者必須提供額外實驗或驗證，否則直接退稿。政策實施後，此類論文退稿率從 40% 飆升至 94%。

Frontiers：規定必須有「外部驗證」（如結合機構私有數據），自 5 月以來已退回超過 5000 篇相關論文。

數據集的「雙面刃」特性

公開健康數據集（如 NHANES）包含大量變數，雖有利於公共衛生研究，但也成為不法份子的溫床。

尋找隨機關聯：投機者在海量數據中挖掘無意義的統計相關性（例如：35 歲以下女性的維生素 D 水平與憂鬱症的關聯），將其包裝成看似科學的發現。

AI 與論文工廠：研究人員懷疑這些論文多由 AI 撰寫，並將作者署名權販售給急需發表紀錄的研究者。

各大期刊的防禦機制

除了大型出版商，個別期刊也採取了不同程度的過濾措施：

《全球健康雜誌》(Journal of Global Health)：要求作者填寫詳盡的檢查清單，說明研究的新穎性，導致相關投稿量減半。

《藥物政策專家意見》(Expert Opinion on Drug Policy)：採取更激進做法，除非編輯主動邀請，否則不再刊登使用 FDA 副作用數據的研究。

《科學報告》(Scientific Reports)：不採取「一刀切」政策，而是透過加強編輯培訓與內部指引來審核異常投稿。

學界的擔憂與挑戰

雖然防堵造假至關重要，但部分專家擔心會產生副作用：

阻礙真實研究：嚴苛的門檻可能阻礙預算有限（如全球南方國家）的科學家利用公開資源進行有益的研究。

道高一尺魔高一丈：統計學家 Matt Spick 警告，論文工廠很快會學會利用「兩個數據集」來偽造交叉驗證。

為了維護學術誠信，出版界正對「數據挖掘型」論文展開清洗。然而，如何在「攔截垃圾論文」與「支持開放科學」之間取得平衡，仍是學界的一大難題。

閱讀更多:

https://www.science.org/content/article/journals-and-publishers-crack-down-research-open-health-data-sets