长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

頂會paper越來越多,我該怎么看?

2020-12-01 15:53
來源:澎湃新聞·澎湃號·湃客
字號

機器之心轉(zhuǎn)載

作者:王晉東

頂會論文越來越多,如何閱讀?中國科學(xué)院大學(xué)計算機應(yīng)用技術(shù)博士王晉東給出了一些建議。

近年來,作為學(xué)術(shù)前沿研究的風(fēng)向標的頂會接收的論文越來越多。例如,最近放榜的 NeurIPS 2020 就接收了高達 1900 篇論文,剛剛過去的 CVPR、ICML、ECCV 等也均在接收文章數(shù)量上「再創(chuàng)新高」。

這么算下來,一個做機器學(xué)習(xí)相關(guān)研究的人,一年關(guān)注 5 個頂會的話(CCF 僅人工智能領(lǐng)域有 7 個會議,再加上每個子領(lǐng)域的 A,更多),也要面對將近 10000 篇頂會的 paper。試問誰能看的過來?

最近的觀察:講故事的能力越來越重要

2020 年是一個特殊的年份。因為疫情的緣故,絕大多數(shù)會議都選擇在線上召開。作者們也為大家貼心地準備了每篇 paper 的 video,時長從幾分鐘到十幾分鐘不等。看 paper 看不過來,聽 talk 似乎是一個經(jīng)濟的方案?

最近一段時間,筆者聽了幾場頂會的 talk,很明顯的感覺是現(xiàn)在的頂會 paper 中講故事的能力越來越重要了。

本來貢獻一般,甚至不乏很簡單的 a+b/a for b 模式,落到普通人手里估計也就能中個二流會議,然而講故事高手卻能讓他輕松中頂會。故事講的太離奇,不太容易區(qū)分出真正的貢獻。硬核的、原創(chuàng)的、真正有用的研究越來越少。

從研究積累和經(jīng)驗上來看,在一個領(lǐng)域深耕多年的大組和牛組無疑比普通人更擅長講故事,通過故事將自己的貢獻娓娓道來。一個好的故事配合不算差的創(chuàng)新點,使得文章被接受的概率大大增加。所以說普通人發(fā)文章越來越難啦。適當?shù)陌b和講故事有利于讓讀者根據(jù)自己的思路對文章內(nèi)容進行理解,這是必須的,但是絕對不是過度包裝。

我的建議是,talk 可以聽,但是絕對不要被 talk 所迷惑。至少在聽 talk 之前,還是要自己先大概看一下 paper。不然你沒看 paper 直接聽,我們的講者的素質(zhì)越來越高,每個講者都能讓你覺得他做出了前無古人的工作,直接影響你的判斷,讓你對這個內(nèi)卷的學(xué)術(shù)圈更加絕望。

當然,任何問題我們都需要辯證地看待,并不是說所有的 talk 對應(yīng)的 paper 都不好,只是從好的 talk 里找到好的 paper,還需要仔細鑒別。

其實,除非研究的是理論和新架構(gòu),否則機器學(xué)習(xí)和 AI 相關(guān)的方法 paper,歸根到底沒有新方法,都是已有方法的應(yīng)用。所以一篇 paper 的貢獻就是圍繞為什么要用這個方法、以及用這個方法到底解決沒解決問題、為什么這個方法能解決問題。

因此,從方法層面,根本區(qū)分不出一個工作是長期在一個領(lǐng)域的學(xué)者、博士、碩士做出來的,還是剛進實驗室、給 idea 就做的本科生做出來的。因為歸根到底大家都在做機器學(xué)習(xí)的應(yīng)用。而這個時候,講故事的能力就體現(xiàn)出來了。

一篇好的工作應(yīng)該是什么樣的?

沒有一篇 paper 是完美的,想拒它總能找到一萬個理由。想接受它也能找到一萬個理由。

那么一篇好的工作應(yīng)該是什么樣的?

個人淺見,一篇好的工作至少要滿足以下幾個條件之一:

非常好的想法。可能并不難,但是不告訴你你就永遠想不到,解決的卻是領(lǐng)域內(nèi)的重大問題。經(jīng)典例子是 ResNet。Skip connection 非常簡單,但是想到加 skip connection 卻很難。

非常扎實的工程實現(xiàn)和絕佳的性能。經(jīng)典例子是 Transformer 和 BERT。自監(jiān)督和無監(jiān)督預(yù)訓(xùn)練并不是什么新的 idea,但是到了 Google 這幫厲害的程序員手里就可以利用大規(guī)模數(shù)據(jù)和分布式訓(xùn)練,硬生生搞出前無古人的性能。

非常充分的理論證明。從理論角度分析一個領(lǐng)域的某個問題,直接給未來工作以啟示。經(jīng)典例子是遷移學(xué)習(xí)領(lǐng)域的著名理論工作 Analysis of representations for domain adaptation,后續(xù)該領(lǐng)域所有的理論工作都會引這篇文章。

非常充分的實驗。從實驗角度分析領(lǐng)域的若干問題并給出相應(yīng)的結(jié)論。顯然在深度學(xué)習(xí)時代這種文章太重要了。經(jīng)典例子是遷移學(xué)習(xí)領(lǐng)域 2014 年的文章 How transferrable are features in deep neural networks。

提出一個新問題。開疆拓土式的工作當然值得一看。只是在這個 paper 爆炸的時代,可能越來越難以鑒別到底是不是 first work 了。審稿人不可能看過一個領(lǐng)域內(nèi)所有子方向的 paper,這時候雞賊的投稿人就欺負審稿人沒看過然后說自己是一個新問題。審稿這種 paper 我的原則是狠狠打死,strong reject,然后把前人的工作甩給他。并且,隨便捏造一個不存在的 setting 就說是新問題的 paper,手段也是非常高明的。到底什么是一個好的新問題,還需要更仔細地甄別。

已有問題下直接開創(chuàng)一個新的分支。這就厲害了,屬于另起爐灶的工作。經(jīng)典例子如 MAML、GAN、Flow 模型,完全是在開辟一個嶄新的(灌水)方向。

如何看海量 paper?

這個問題沒有標準答案。事實上每個人不可能對所有的「好」paper 都達到 100% 的召回率。我的方式也還是比較老套,就是頂會放榜后人工去篩出自己感興趣的 paper 下載下來打上標簽(用 zotero)留著慢慢看。盡量用一句話總結(jié)出一篇 paper 的貢獻。這時候就能很輕松地分辨出一篇 paper 是不是水文了:

如果你能輕而易舉地用一句幾乎沒有任何新專業(yè)術(shù)語的文字概括它的所有貢獻、并且別人能看明白或者你一個月后看到筆記你就能看明白,那它多半不是一個好的工作。

如果你自己都覺得一句話不太夠、需要多做一些筆記,那這篇 paper 是值得一看的。

例如,paper A 針對 x 問題提出 y 方法,其核心是 xxx,取得了好結(jié)果。

如果一個月后你看了筆記還記得、并且對其 y 方法印象深刻、認為其確實解決了問題,那是一個好 paper;如果你一個月后已經(jīng)記不得 y 是個啥、解決了個啥問題、到底有沒有解決還是只是性能有提高,那多半不是一個好工作。

當然,這「一句話」就見仁見智了,不同的人有不同的理解。如果實在難以區(qū)分,那還有第二招:看它研究的問題和 motivation。看這個問題是否很重要,為了解決它,作者為什么要用 xx 方法,xx 方法能夠被其他方法所替代嗎?你覺得這么用是不是灌水、讓你想你能不能想到。如果你也能輕松想到或你覺得這么加就是 a+b,那么多半它不是一個好的 paper。

新奇的看 paper 角度:看工業(yè)界的 paper

其實工業(yè)界的 paper 相對來說「好」paper 的召回率能有保證。為啥?因為發(fā) paper 是學(xué)校和研究所的 kpi,那當然大家會拼命發(fā)呀。但是只會發(fā) paper 在公司里是不可能混的好的。所以工業(yè)界提交的 paper 里總會有一部分真正能 work 的 paper 才能保證這群人能在公司里混的好。

另一方面,深度學(xué)習(xí)時代最重要就是大數(shù)據(jù)和計算平臺,這兩個恰恰是工業(yè)界具備的、絕大多數(shù)高校和研究所不具備的。工業(yè)界因為有實際問題和實際的數(shù)據(jù),往往看問題會比高校和學(xué)術(shù)界更實際也更透徹、更能解決痛點。數(shù)據(jù)也都是實際應(yīng)用的大規(guī)模數(shù)據(jù),更能驗證方法的有效性。不過工業(yè)界的 paper 通常都不是很花里胡哨,有點傻大粗……

所以這個角度是不是很新奇……當然問題沒有絕對的,我從來沒說高校和研究所的 paper 都不好,工業(yè)界的都好,畢竟高校和學(xué)術(shù)界是工業(yè)界研究的支持力量。我在這里只是給大家提供這個角度供參考。

我們怎么學(xué)習(xí)?

從講故事講得好的 paper 里,學(xué)習(xí)講故事的能力。

再強調(diào)一下,講故事和寫作能力在頂會里越來越重要了。不是大牛組的同學(xué)一定要加強,多讀別人的 paper 學(xué)習(xí)套路,能加理論就加一下(雖然你也不會用到)、參考別人的用詞和套路、畫的精美的插圖和表格,更好地包裝自己。

當然,科研的本質(zhì)不是做出真正改變世界的成果嗎,為什么我們一直在強調(diào)講故事和寫作?悲哀啊。

從硬核的你覺得的好 paper 里,學(xué)習(xí)研究問題、分析問題、解決問題的能力。

這就見仁見智了,得是一個持續(xù)學(xué)習(xí)的過程,你需要自己真正進入一個領(lǐng)域去思考問題。

當然,并不是鼓勵大家去灌水,為了畢業(yè)也是不得已。這是從寫作者的角度講大家要給予理解。畢竟沒有人生來就能做出好的工作,都得慢慢成長。但絕對不要長期灌水,否則就太沒有意義了,浪費電浪費 GPU 污染環(huán)境。所有的好工作也是建立在無數(shù)的平庸的工作基礎(chǔ)之上的。要辯證地看待這個問題。

其實挺精神分裂的,一方面,作為研究者,我們當然想發(fā)頂會,那就得花大時間講好故事;另一方面,作為論文閱讀者,我們確實不太想看故事、厭煩過度包裝,直切要害最好了。然而又能怎么辦呢?這就是從業(yè)者的命。

補充一句,頂會還是頂會,真正的好 paper 永遠都會優(yōu)先投在會議上,只是我們需要去發(fā)現(xiàn)它。并不是說因為灌水的多了,頂會就不「頂」了。態(tài)度還是要端正的。

最后,大家加油吧!祝每一份努力都不會白費!

原文鏈接:https://zhuanlan.zhihu.com/p/315760425?utm_source=wechat_session&utm_medium=social&utm_oi=56560353017856&utm_campaign=shareopn

2020 NeurIPS MeetUp

原標題:《頂會paper越來越多,我該怎么看?》

閱讀原文

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            海南太阳城大酒店| 五湖四海娱乐城| 百家乐官网视频游戏网站| 成都百家乐官网的玩法技巧和规则 | 饿火命适合做生意吗| 百家乐官网玩法及细则| 新锦江百家乐娱乐场开户注册| 百家乐官网稳中一注法| 云鼎娱乐城信誉度| 百家乐五星宏辉怎么玩| 请问下百家乐官网去哪个娱乐城玩最好呢| 淘金盈赌场有假吗| 百家乐庄闲机率分析| 百家乐官网设备电子路| bet365指数| 菲彩百家乐的玩法技巧和规则| 百家乐官网乐翻天| 钟山县| 永利高平台| 凯斯网百家乐的玩法技巧和规则| 百家乐官网群到shozo网| 百家乐官网太阳城| 百家乐官网视频游戏聊天| 星空棋牌大厅下载| 保单机百家乐破解方法| 太阳城百家乐官网注册平台| 百家乐官网的胜算法| 太阳城招聘| 全讯网财运| 威尼斯人娱乐城网址多少| 百家乐庄和闲的赌法| 豪享博百家乐官网的玩法技巧和规则 | 百家乐电脑游戏高手| 单机百家乐官网破解方法| 缅甸百家乐官网娱乐| 豪门网上娱乐| 大发888的促销代码| 三公百家乐在哪里可以玩| 太阳城娱乐网可信吗| 大发888下载官网| 玩百家乐怎么能赢呢|