這篇報導主要探討學術出版商如何應對利用「公開健康數據集」大量產出劣質、甚至疑似 AI 生成論文的現象。
出版商採取強硬手段
由於「論文工廠」(Paper Mills)利用公開數據集(如美國 CDC 的 NHANES)編造大量無意義的科學論文,兩大出版商 PLOS 與 Frontiers 已開始自動退回絕大多數以此類數據為基礎的投稿。
PLOS: 要求作者必須提供額外實驗或驗證,否則直接退稿。政策實施後,此類論文退稿率從 40% 飆升至 94%。
Frontiers: 規定必須有「外部驗證」(如結合機構私有數據),自 5 月以來已退回超過 5000 篇相關論文。
數據集的「雙面刃」特性
公開健康數據集(如 NHANES)包含大量變數,雖有利於公共衛生研究,但也成為不法份子的溫床。
尋找隨機關聯: 投機者在海量數據中挖掘無意義的統計相關性(例如:35 歲以下女性的維生素 D 水平與憂鬱症的關聯),將其包裝成看似科學的發現。
AI 與論文工廠: 研究人員懷疑這些論文多由 AI 撰寫,並將作者署名權販售給急需發表紀錄的研究者。
各大期刊的防禦機制
除了大型出版商,個別期刊也採取了不同程度的過濾措施:
《全球健康雜誌》(Journal of Global Health): 要求作者填寫詳盡的檢查清單,說明研究的新穎性,導致相關投稿量減半。
《藥物政策專家意見》(Expert Opinion on Drug Policy): 採取更激進做法,除非編輯主動邀請,否則不再刊登使用 FDA 副作用數據的研究。
《科學報告》(Scientific Reports): 不採取「一刀切」政策,而是透過加強編輯培訓與內部指引來審核異常投稿。
學界的擔憂與挑戰
雖然防堵造假至關重要,但部分專家擔心會產生副作用:
阻礙真實研究: 嚴苛的門檻可能阻礙預算有限(如全球南方國家)的科學家利用公開資源進行有益的研究。
道高一尺魔高一丈: 統計學家 Matt Spick 警告,論文工廠很快會學會利用「兩個數據集」來偽造交叉驗證。
為了維護學術誠信,出版界正對「數據挖掘型」論文展開清洗。然而,如何在「攔截垃圾論文」與「支持開放科學」之間取得平衡,仍是學界的一大難題。
閱讀更多:
https://www.science.org/content/article/journals-and-publishers-crack-down-research-open-health-data-sets