长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

“我為什么反對(duì)AI論文強(qiáng)制開(kāi)源代碼”

2020-04-14 06:53
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

量子位 量子位

曉查 發(fā)自 凹非寺

量子位 報(bào)道 | 公眾號(hào) QbitAI

AI論文,到底該不該強(qiáng)制開(kāi)源代碼?

NeurIPS 2020官方近日發(fā)布了一份開(kāi)源指南。從2019開(kāi)始,NeurIPS就“強(qiáng)烈建議”提交論文代碼,不過(guò)仍非強(qiáng)制。

但無(wú)論如何,官方傳達(dá)出了一種信號(hào):AI學(xué)術(shù)頂會(huì)開(kāi)源代碼已是行業(yè)趨勢(shì)。

NeurIPS此舉也引發(fā)了一場(chǎng)“年經(jīng)”式的討論:如果將來(lái)學(xué)術(shù)會(huì)議要求必須開(kāi)源,投稿人應(yīng)該拒絕嗎?

而讓人始料未及的是,不少網(wǎng)友認(rèn)為:不開(kāi)源,我有理。

反對(duì)一:代碼并沒(méi)有那么重要

首先,開(kāi)源代碼的目的是什么?是為了讓其他研究者可以復(fù)現(xiàn)結(jié)果。

如果一篇論文包含足夠多的細(xì)節(jié),那么別人就可以根據(jù)其中的公式自己寫出代碼,對(duì)于這類論文,可以不公開(kāi)代碼。不過(guò)前提必須是提供足夠多的細(xì)節(jié)。

比如谷歌的AlphaGo就沒(méi)有開(kāi)源代碼,但是沒(méi)有人懷疑它的正確性,事實(shí)上也有很多人根據(jù)谷歌論文復(fù)現(xiàn)了AlphaGo。

而且作者本人的代碼可能會(huì)出現(xiàn)錯(cuò)誤,不開(kāi)源的一個(gè)好處就是讓其他研究者獨(dú)立復(fù)現(xiàn)。

萬(wàn)一作者在代碼里挖了個(gè)不明顯的“坑”,其他人也可以規(guī)避,防止被帶到溝里。

另外,也不要高估代碼的價(jià)值,經(jīng)典論文可以幾十年長(zhǎng)盛不衰,但是代碼很可能十年后就難以運(yùn)行了。

當(dāng)然,還有一種觀點(diǎn)就是,對(duì)于AI來(lái)說(shuō),數(shù)據(jù)集更重要。沒(méi)有數(shù)據(jù)的代碼是沒(méi)有價(jià)值的,而很多數(shù)據(jù)集沒(méi)法開(kāi)放,這意味著你即使拿到代碼,也無(wú)法復(fù)現(xiàn)SOTA結(jié)果。

反對(duì)二:要為作者考慮

不開(kāi)源同時(shí)也是為了照顧作者的種種特殊情況。

比如一些研究者是從事純理論的研究。有一個(gè)網(wǎng)友就說(shuō),他甚至都不知道怎么構(gòu)建Docker容器,雖然發(fā)表了多篇論文都在GitHub上開(kāi)源了代碼,但它從來(lái)不維護(hù)。

所以,論文是否開(kāi)源應(yīng)該根據(jù)代碼對(duì)于文章的重要性而定,不該一刀切。

還有一些商業(yè)公司的研究者,他們?cè)趯懻撐牡臅r(shí)候用到了公司內(nèi)部專有軟件庫(kù),如果強(qiáng)制開(kāi)源,他們必須從頭再寫一遍代碼,費(fèi)時(shí)費(fèi)力,對(duì)這些人也是不公平的。

還有一些作者,本身并不是不想開(kāi)源,而是希望能夠?qū)⒊晒Wo(hù)一段時(shí)間,在論文發(fā)布幾個(gè)月后再開(kāi)源代碼,這對(duì)于從事醫(yī)療、法律領(lǐng)域的學(xué)者很重要。

綜上所述,反方網(wǎng)友認(rèn)為,強(qiáng)制開(kāi)源過(guò)于極端,應(yīng)該對(duì)論文開(kāi)源持鼓勵(lì)態(tài)度,而不是強(qiáng)制。

支持開(kāi)源:不開(kāi)源怎能讓人信服

首先是一名從事石油行業(yè)的網(wǎng)友說(shuō),他們行業(yè)的數(shù)據(jù)都是商業(yè)機(jī)密,所以不會(huì)發(fā)布任何數(shù)據(jù)和代碼,甚至?xí)谖恼轮衼G掉一些公式來(lái)隱藏成果,還聲稱98%的正確率。結(jié)果怎能讓人信服。

他認(rèn)為不公開(kāi)數(shù)據(jù)和代碼,就像把一篇論文中所有的關(guān)鍵要素都刪了,這樣的研究即使發(fā)表出來(lái)也毫無(wú)價(jià)值。

還有一些人認(rèn)為,強(qiáng)制開(kāi)源會(huì)改變其他行業(yè)對(duì)機(jī)器學(xué)習(xí)的偏見(jiàn)。

很多其他學(xué)科的人都把機(jī)器學(xué)習(xí)看成偽科學(xué),這是為什么?因?yàn)锳I領(lǐng)域的論文發(fā)布過(guò)程非常不成熟。

科學(xué)方法的關(guān)鍵是一致性和可重復(fù)性。追逐單一的指標(biāo),每個(gè)人都對(duì)SOTA著迷,這是一個(gè)巨大的問(wèn)題。

而開(kāi)源是解決此問(wèn)題的一種方法。

去年,AI知名女學(xué)者Anima Anandkumar曾在個(gè)人博客里公開(kāi)喊話,強(qiáng)烈反對(duì)發(fā)論文卻不給代碼的行為,呼吁學(xué)術(shù)會(huì)議強(qiáng)制要求投稿同時(shí)必須公開(kāi)代碼。

她認(rèn)為不開(kāi)源代碼不利于評(píng)審論文,不利于對(duì)論文造假的追責(zé),更不利于行業(yè)開(kāi)放競(jìng)爭(zhēng)。

你覺(jué)得公開(kāi)的學(xué)術(shù)論文也應(yīng)該公開(kāi)代碼么?

參考鏈接:

https://www.reddit.com/r/MachineLearning/comments/fzss9t/d_if_a_paper_or_project_doesnt_publicly_release/

https://www.reddit.com/r/MachineLearning/comments/fzp8bu/d_official_neurips_2020_guidelines_for_making/

作者系網(wǎng)易新聞·網(wǎng)易號(hào)“各有態(tài)度”簽約作者

— 完 —

原標(biāo)題:《“我為什么反對(duì)AI論文強(qiáng)制開(kāi)源代碼”》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            海立方百家乐官网的玩法技巧和规则 | 营山县| 好望角百家乐的玩法技巧和规则| 尚义县| 大发888大发娱乐城| 百家乐投注平台导航网| 最新百家乐官网电脑游戏机| 道真| 皇家娱乐场| 大发888代充平台| 百家乐一起多少张牌| 做生意带什么装饰招财| 线上百家乐官网玩法| 真人百家乐官网开户须知| 明升开户 | 大发888游戏安装失败| 马尼拉百家乐的玩法技巧和规则 | 百家乐官网如何制| 百家乐官网椅子| 塘沽区| 利博亚洲| 利高国际娱乐网| 大发888容易赢吗| 大发888真钱客户端| 百家乐打鱼秘| 百家乐平注常赢玩法| 百家乐游戏种类| 嘉兴太阳城大酒店| 大发888娱乐城casino| 大发888游戏平台dafa888gw| 大发888娱乐城游戏下载| 百家乐是娱乐场最不公平的游戏 | 百家乐视频游戏注册| 百家乐模拟投注器| 网上百家乐官网游戏哪家信誉度最好| 百家乐官网在线娱乐网| 百家乐官网官网游戏| 澳门百家乐官网长赢打| 百家乐线上游戏| 百家乐怎赌才赢钱| 百家乐下|