Google AI發數據集論文、辦挑戰賽卻拒絕開放數據集?被懟了……

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

最近,有網友在 reddit 上提出 Google AI 拒絕公開 Conceptual Captions 數據集(相關論文發表在 ACL 2018 上),Google除了發表相關論文以外還舉辦了使用該數據集的挑戰賽(比賽結果在 2018 年 NeurIPS 會議上公布)。這引發了網友對這種做法是對是錯、學術會議同行評審是否應該把論文復現作為重要考量因素等的激烈討論。

Google AI發數據集論文、辦挑戰賽卻拒絕開放數據集?被懟瞭……

Google AI發數據集論文、辦挑戰賽卻拒絕開放數據集?被懟瞭……

原帖主要內容是:

Google曾在 ACL 2018 上發表了一篇數據集論文《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》,該數據集 Conceptual Captions 共有大約 330 萬張圖像。但他發現了幾個問題:

  • Google拒絕共享預訓練模型,這使得基準測試變得異常艱難:
  • https://github.com/google-research-datasets/conceptual-captions/issues/3;
  • 拒絕共享與每張圖像相關的 Alt 文本(諷刺的是這篇論文的標題中恰好有 Alt-text 一詞):
  • https://github.com/google-research-datasets/conceptual-captions/issues/6;
  • 拒絕共享圖像/鏡像鏈接(盡管我認為這關乎法律問題,但僅有該數據集的幾百張圖像,社區很難對比不同模型):
  • https://github.com/google-research-datasets/conceptual-captions/issues/1

po文人表示對此很難過。他希望社區意識到數據集論文是一項重大責任,如果存在阻擋數據集共享的法律問題,那麼可以基於私人數據發表論文,但是基於同樣的模型或整個數據集舉辦挑戰賽的行為不太好。

此帖發出後,引發了網友的大量討論。有網友認為Google這麼做沒什麼問題,他們的任務是分享研究、把研究成果作為自己的優勢,而不是相反。但評論中更多的是對這種行為的反對。

反對此類行為

網友_michaelx99 表示:

DeepMind 發表的好幾篇論文也是僅依靠論文本身完全無法復現。這讓我意識到發表在 arXiv 或企業網站上的「論文」並不是真正的發表,其主要目標是表明該企業已經具備了某種能力。我並不是說所有大企業在線發表的論文都這樣,但其中一些確實如此。

ModernShoe 表示:

我曾聽吳恩達談論商業如何利用 AI 盈利。他說企業應該保護訓練/測試數據集,而不是保護某個算法。或許這與數據集論文不公布數據集有某種關係?

網友 epic:

這種行為不利於科學和機器學習的發展。雖然我們理解Google不發布數據集的原因,但這種行為仍然是不好的。尤其是數據集論文,在沒有數據的情況下復現研究及其困難。有能力的組織和人們應該作為表率來引領社區,而不是相反。

網友 SkinnyJoshPeck:

這是對機器學習和機器學習專家的海量需求的後果嗎?我在一家大企業工作,與機器學習科學家接觸較多,他們當中一些人缺乏對科學方法的基本尊重,這令我非常驚訝。我認為這並非技巧的缺乏(一些研究已經發表),而是不明白「可觀的結果未必是準確、有效的」。

我的大學專業是數學,而且專門學習了代數。我了解表示論和代數幾何,因此我知道大多數模型和技術的底層數學基礎,這些讓我對這些專家能夠坐在現在的崗位上感到驚訝。

復現性

網友 GoAwayStupidAI:

復現性是科學的重要標誌。沒有相關數據、結果無法復現的研究都是垃圾。

網友 kemfic:

論文就應該是可復現的。如果不能,那麼期刊就不應該接收它們。

網友 duckbill_principate:

讓我覺得困擾的不是共不共享模型、代碼或者數據集的問題,而是在這種事情發生的時候論文仍然被接收了。這某種程度上是同行評審的失敗,其責任則屬於我們每一個審稿人,因為這樣的論文往往是基於信任或權威而被接收的(我們知道盡管有雙盲評審,但我們不難推斷出某些論文一般會來自哪個研究組)。這更像是廣告而不是科學。

網友 duckbill_principate:

在我做到的 20 多篇論文中,5 篇存在部分或完全影響研究結果驗證的錯誤/bug。而這些論文都是頂會上經過同行評審的論文。

我認為這是學術醜聞。

有些案例中問題被揪出來,作者進行了修改。但即使是在這種比較好的場景中,修改數字後的論文(可能使用了全新的超參數搜尋!)靜悄悄地出現在 arXiv 上,而發表在會議上的論文並沒有修改,更不會被撤回。為什麼?大家都知道原因,也熟悉那些辯護理由:「盡管我們的結果不如預想中的好,但我們認為這項技術非常棒,非常有前途……」不管是從數學角度,還是從沒有所謂的「當前最優結果」的論文不該被接收的角度,這種說法都非常糟糕。

網友 habanero_ass_fire 認為:

OpenImages 的圖片是從網上獲得的,其他幾個比較知名的數據集也是如此。就法律意義上來看,圖片的作者擁有版權,因此論文作者是不能共享這些圖片的。另外,無效的鏈接在現實中經常發生。因此我對這種沒有公開數據集的行為沒有意見,只要他們能夠分享一個預訓練模型即可;如果你可以依照論文訓練出自己模型,即使沒有預訓練模型也不會讓論文無效。

但這立刻遭到網友 duckbill_principate 的反駁:

如果你能夠訓練出一個模型精確復現,那沒問題。但如果你曾試圖復現論文時就會明白,實際情況往往是,即使那些發布了自己代碼且提供定義清晰且可用的數據集的論文,復現的結果也往往是不可預測的。他們是公布了自己的代碼和參數,但卻可能沒有說明自己的訓練過程;他們公布了訓練代碼,但卻可能遺漏了部分自定義庫;他們使用了公共數據集,但卻沒有明確說明他們對這些數據集做了什麼樣的預處理;他們公布了代碼、數據集,甚至也對此做了大量且詳盡的說明,但卻可能遺漏一些非常關鍵的內容,等等不一而足。

事實是,如果沒有預訓練模型,或者沒有對訓練過程的完整描述,談復現性就是一個笑話。

正如網友所說,在沒有數據的情況下復現研究及其困難,尤其是數據集論文

關於研究復現的討論由來已久,前段時間在某篇 CVPR 論文復現出現問題時,大家更是對頂會/期刊論文復現性進行了大量討論。不少人認為論文復現也應該作為同行評審中的重要部分。有網友表示「總體而言,論文評審過程不包含復現實驗結果。評審者不得不在很大程度上依靠作者的誠信」、「同行評審通常更關心論文中描述的方法。潛在的解決辦法是要求作者提交現成的做到(如通過 docker)。然而,在哪里運行仍然是一個問題。也許 AWS 資源等可以從提交費用中提取,供評審人員重新運行模型。然後,問題是確保評審人員不會「濫用」資源進行他們自己的實驗等。在任何情況下,「通過計算的方法」進行 DL 論文評審都很棘手」。

學術會議對研究復現也很重視。2017 年,ICML「機器學習復現 Workshop」就對這一問題進行過討論;2018 年,ICLR 舉辦了復現挑戰賽,旨在保證接收論文公布的結果是可靠的、可復現的。此外,為了鼓勵可復現性和高質量論文的提交,ICML 2019 在論文提交上做出了一些重要改變,如鼓勵提交的論文附帶代碼,結果的可復現性和代碼的易用性將作為論文接收和進一步決策的考慮因素。KDD 2019 的征稿通知中也表明:今年會議採取雙盲評審制度,論文接收結果公布之前投稿者不得將論文發布於 arXiv 等開放性平台上。更重要的是,只有在論文中公開研究代碼和數據的論文才有資格競選「最佳論文獎」。

科學研究的復現性非常重要,機器學習社區一貫重視開放性、復現性,而這需要社區人們的維護。上述學術會議的變化無疑將促進研究復現性,鼓勵研究人員更加審慎地對待自己的研究、更加開放地共享研究的具體細節。那麼具備強悍研究能力和開發能力的大型企業會不會做好表率呢?

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!