logo logo
焦點觀點
::: 首頁 焦點觀點專欄 學術出版界嚴查開放健康數據集之亂象

學術出版界嚴查開放健康數據集之亂象

2026-02-24
TAG Paper Mills External Validation NHANES 美國國家健康與營養調查

這篇報導主要探討學術出版商如何應對利用「公開健康數據集」大量產出劣質、甚至疑似 AI 生成論文的現象。

出版商採取強硬手段

由於「論文工廠」(Paper Mills)利用公開數據集(如美國 CDC NHANES)編造大量無意義的科學論文,兩大出版商 PLOS Frontiers 已開始自動退回絕大多數以此類數據為基礎的投稿。

PLOS: 要求作者必須提供額外實驗或驗證,否則直接退稿。政策實施後,此類論文退稿率從 40% 飆升至 94%

Frontiers: 規定必須有「外部驗證」(如結合機構私有數據),自 5 月以來已退回超過 5000 篇相關論文。

 

數據集的「雙面刃」特性

公開健康數據集(如 NHANES)包含大量變數,雖有利於公共衛生研究,但也成為不法份子的溫床。

尋找隨機關聯: 投機者在海量數據中挖掘無意義的統計相關性(例如:35 歲以下女性的維生素 D 水平與憂鬱症的關聯),將其包裝成看似科學的發現。

AI 與論文工廠: 研究人員懷疑這些論文多由 AI 撰寫,並將作者署名權販售給急需發表紀錄的研究者。

 

各大期刊的防禦機制

除了大型出版商,個別期刊也採取了不同程度的過濾措施:

《全球健康雜誌》(Journal of Global Health): 要求作者填寫詳盡的檢查清單,說明研究的新穎性,導致相關投稿量減半。

《藥物政策專家意見》(Expert Opinion on Drug Policy): 採取更激進做法,除非編輯主動邀請,否則不再刊登使用 FDA 副作用數據的研究。

《科學報告》(Scientific Reports): 不採取「一刀切」政策,而是透過加強編輯培訓與內部指引來審核異常投稿。

 

學界的擔憂與挑戰

雖然防堵造假至關重要,但部分專家擔心會產生副作用:

阻礙真實研究: 嚴苛的門檻可能阻礙預算有限(如全球南方國家)的科學家利用公開資源進行有益的研究。

道高一尺魔高一丈: 統計學家 Matt Spick 警告,論文工廠很快會學會利用「兩個數據集」來偽造交叉驗證。

為了維護學術誠信,出版界正對「數據挖掘型」論文展開清洗。然而,如何在「攔截垃圾論文」與「支持開放科學」之間取得平衡,仍是學界的一大難題。

 

閱讀更多:

https://www.science.org/content/article/journals-and-publishers-crack-down-research-open-health-data-sets

 
上一則 回索引頁