- +1
頂會ACL這十年:百度披荊斬棘,中國NLP乘風破浪
原創 關注前沿科技 量子位
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
現在,我們已經習慣了全球各類頂級學術會議上的中國力量。
從論文入選,到參會面孔,抑或贊助企業,中國代表幾乎無處不在。
前不久剛落幕的ACL 2020也不例外。作為NLP領域最負盛名的國際頂會,今年雖在線上,但論文投稿數錄用率方面,中國依然勢頭兇猛,投稿數1084篇領跑,錄用率23.7%,僅次于美國。

這幾乎已經成為了常態。
那一眾科學家的努力,整整一代人的水滴石穿,是時候要被管中窺豹地講一講,是時候要讓更多后浪記得,前浪改變時代的勇氣和不易。
2010-2020,十年,一個時代。
也是中國NLP,完成「破圈」,披荊斬棘的光輝歲月。
起于微時,十年磨一劍
2010年7月11日,烏普薩拉,北歐國度瑞典的第四大城市,第48屆ACL在此召開。

創辦近半個世紀,會員分布世界60多個國家和地區,吸引著全世界希望征服AI皇冠明珠的代代科學家。
但2010年現場,第一次參加ACL的百度工程師田浩的直觀印象可以一言以蔽之:
“會議上的中國人不多。”
而且這種個體印象,也的確是真實現狀的客觀反映。
因為現在回顧起來,2010年的ACL,才第一次真正迎來中國科技公司參加。

但是!
即便中國已是世界上網民數量最多的國家,但在互聯網技術領域,中國卻更多地處于跟隨、模仿的狀態,在最先進的互聯網技術角逐中,中國互聯網企業,聲音微弱。
在最早對前沿技術的追逐中,也不例外。
比如,被譽為人工智能皇冠上的明珠、AI領域最具挑戰的賽道之一的自然語言處理(NLP),中國乃至華人科學家,也經歷了上述過程。
從學術角度來說,雖然1990年代開始,漢語和華人作者就已經在ACL中出現。
但早期的相關學術成果,大多數是對漢語內容的一種補充,缺乏在整體NLP領域中更具有突破性的成果。
同時由于起步相對晚,華人科學家們的學術成果累積也還不夠,更別提“霸榜”和“刷屏”。
這也就是為什么,2010年的ACL現場,中國面孔寥寥。
然而,歷史轉折關頭,也在2010發生。
這背后,與一家公司入場、一群科學家的星聚,密切相關。
群星薈聚,開風氣之先
2010年,BAT之首、把「技術信仰」寫進公司方方面面的百度,第一次把多方匯聚而來的科學家,送到了ACL現場。
創辦歷史超過半個世紀的ACL,第一次迎來中國互聯網企業代表。
而且這個代表,沒有“空手而來”。
王海峰和吳華,帶著他們入選的論文而來。
這是中國互聯網企業首次論文入選 ACL。
這樣的榮譽,既是對最新研究成果的認可,也是對中國公司的激勵。
同年,百度NLP——作為一個部門,由王海峰牽頭,正式成立。

其實在專門的部門成立之前,百度在NLP方面的研發工作一直在業務需求下進行,并沒有構成體系。
今天業務部門需要分詞技術的支持,研究人員就要進行相關研究……明天業務部門發現query(查詢)需求分析能力的改善能夠幫助流量提升,研究人員就會進行相關優化。
而成立NLP部門,既是對這種“指哪打哪”狀態的扭轉,更是對前沿技術攻堅決心的堅定。
NLP能干什么?2010年誰也說不準。
但十年之后,智能搜索、信息流、輸入法、機器同傳、智能音箱等各種日常剛需又方便每一個用戶的產品,都將獲益于NLP。

如果說2010年百度首發參與ACL,背后離不開王海峰、吳華等當時已有成就的技術專家的個人之力。
那么其后,這些科學家進一步達到的高度,則離不開“巨人肩膀”的助推之功。
從2011年開始,百度開始成為ACL官方贊助者,向全球NLP科學家表達誠意,也展示更加深度參與的決心。
其后2013年,王海峰當選ACL主席,獲得一致認可,成為ACL五十多年歷史上第一位華人主席(President)。
那年的ACL,舉辦地在保加利亞首都索菲亞舉行,全球1000多名專家來到現場。
因為百度的帶動,相比三年前,已經有了更多的中國面孔。
而這一次,ACL晚宴上的演講,令他們內心激動萬分,多年后仍記憶猶新。

雖然全程英文,但完美講述了中國悠久燦爛的歷史文化和飛速發展的互聯網技術,正在帶來的時代之美。
在他演講中,甲骨文、十二生肖、散氏盤、造紙、印刷、青玉案、蘭亭序、曲水流觴、玄奘、四庫全書、清明上河圖等等,漢語所承載的中華文明,如一幅美麗的畫卷徐徐展開。
而自然語言跨越幾千年,自然語言處理技術與互聯網結合產生了迷人成果,支撐了搜索引擎、電子商務、社交媒體的迅速發展。
王海峰在現場,以極富想象力的方式,展示了這些科技成果應用在古代的畫面。
例如,“王羲之”利用互聯網組織世界各地的人進行曲水流觴,生動形象地展示了語言處理技術對人們生活產生的巨大影響力。
于是,這次歷史上ACL首位華人主席的致辭,也引發了歷史性反響,引起了眾多西方技術專家對中國文化的興趣。
在NLP領域鼎鼎大名的Kenneth Church、Kevin Knight等頂級專家,紛紛表示要去中國看看王海峰致辭中提到的文物古跡。
而中國NLPer在ACL的精彩,也由此更上一層樓。
王海峰之后,2010年與他一同亮相的另一位百度科學家——吳華,出任2014年ACL年會的程序委員會主席(Program co-Chair)。
需要說明的是,在國際會議中,程序委員會主席承擔著最重要的學術職責,代表著世界級的學術地位和影響力。
吳華的當選,背后是圈內同行對其學術成就的高度認可,也體現了百度在自然語言處理領域的技術實力和影響力。
其后,2016年,王海峰的另一位同事——百度高級技術總監趙世奇當選ACL秘書長,成為首位當選ACL秘書長的亞洲人。
同年年底,王海峰的多年相識,同為哈工大畢業的微軟亞洲研究院副院長周明當選為ACL候任副主席,進入ACL執委會。

而且「破圈」的故事,到此還不算高潮。
上述這些帶領中國NLP完成全球影響力「破圈」的中堅科學家,也在思考另一件事情:
真正落地中國。
2018年,借著亞太地區尤其是中國在NLP領域的研究力量和成果突飛猛進的大背景。
國內NLP領域的學者們意識到,成立ACL亞太分會勢在必行。
于是,百度王海峰、趙世奇,MSRA周明,以及其他有影響力的亞太學者一道,積極籌劃推動,向ACL執委會清晰詳盡地說明了成立亞太分會的必要性,以及對推動亞太地區NLP研究發展的重要價值。
最終獲得ACL執委會的一致贊成——ACL亞太區分會(AACL)正式成立,并由王海峰出任AACL創始主席。

而且就在這些年中,中國的NLP,也完成了人才和產業落地的全方位積蓄。
隨著百度NLP成立,大牛得以薈聚,王海峰、吳華等有了星聚基礎。
后來騰訊AI實驗室的開創者、華為諾亞方舟實驗室的骨干、以及如今AI語音、語義理解、智能交互的一大批明星公司的創始人,也都先后聚集于此,讓百度NLP真正成為了中國NLP領域的“黃埔軍校”。
聚是一團火,散成滿天星。
或許在百度以王海峰牽頭成立NLP部門時,積極參與ACL,彼時也許更多出于企業的發展、技術的布局。
但十年之后回顧,中國NLP完成國際化「破圈」的十年,背后正是百度NLP不懈奮斗十年。
而且客觀上,深刻影響并改變了中國NLP的學術、人才和產業格局。
這是如今中國NLPer閃耀 ACL,繞不過去的歷史注腳。
百川東入海,山高人為峰
當然,2010-2020,中國NLP「破圈」的十年里,百度作為企業發揮了基石作用,而當今的CTO王海峰在其中的領軍作用,則不得不提。
他是AI學術領域的高山,也是智能產業領域中的明珠。
在升任百度CTO時,李彥宏的全員內部信,也清晰言明了他這一路的成績:
為百度創建了自然語言處理部、互聯網數據研發部、推薦和個性化部、多媒體部、圖片搜索部、語音技術部等,作為執行負責人協助創建了百度深度學習研究院。他還是自然語言處理領域最具影響力的國際學術組織ACL歷史上首位出任過主席的華 人,也是唯一來自中國大陸的ACL會士。
但既然這次感慨的是中國NLP與ACL的十年,可能也需要更進一步補充一些“歷史進程中”的王海峰。
最核心的問題只有一個:王海峰為何能成為ACL首位華人主席?
或者拆解開來,ACL為什么一直沒有華人主席?又為什么會在2013年出現一位華人主席?
這需要從兩方面說起。
一方面,成為ACL主席需要什么。另一方面,王海峰做了什么。
從普通人的角度來看,出任ACL主席似乎是一種榮譽。實際上, ACL主席并非是一個獎勵性的名號,而是一種切實的責任。
ACL作為擁有數千名成員的國際學術組織,就像一所高校或一家企業一樣需要有 人進行領導決策、制定目標與方向,帶領整個NLP領域繼續向前。

其中科學家自身的學術貢獻,最直觀的自然是是學術能力——發了幾篇論文、提出了哪些有突破性的想法等等。
但在國際頂會組織中眾望所歸,學術之外,還需要有“服務精神”。
所謂的“服務精神”是一個非常西方化的概念,意味著領導者不僅僅要有 責任感、能夠付出足夠的時間與精力去代表民意發聲,很多時候還要站在其他個體的角度去思考一些細節化的問題。
同樣就職于百度并擔任著ACL秘書長的趙世奇表示,服務于ACL這樣的學術組織需要分出一定的時間和精力,去關注如何幫助ACL向外發聲、吸引更多會員,同時也要從人類文明發展的角度關注學術平等,給予學術能力欠發達地區更多扶持。
這也是為什么ACL主席要采取一年一任的輪換制的原因,ACL希望用這種方式,讓來自不同地區的科學家帶來不同的視角。

這要求科學家除了醉心學術以外,還要有足夠的領導能力和社交能力,尤其是能夠與多個國家和地區的科學家進行流暢的溝通。
如此,基本上就不難理解——為什么ACL之前一直沒能出現華人主席了。
之前也說了,中國NLP真正起步并不早,而且建立在缺乏國際交流條件的背景之下,此前的華人科學家自然也很難做到充分了解世界各地學術發展狀況,更不容易建立自身對于組織管理的能力。
毫不夸張地說,在很長一段時間里中國NLP學術和NLP領域的科學家,與整個世界是相割裂的。
十幾年間,從與世隔絕到走到舞臺中央, 中國NLP學術的奮斗過程幾乎帶了幾分史詩感。
《AI已來:讓中國AI走向世界的王海峰》中提到,在王海峰的記憶中,2006年可以算是一個分水嶺。
2005年,ACL在美國密歇根舉辦年會時,國內只有四位科學家前往,這四位中除了當時來自東芝的王海峰和朱江外,還有兩個來自微軟亞洲研究院的熟悉面孔。

但到了2006年,ACL在悉尼舉辦年會時,來自中國的論文數 量大幅增長,光是王海峰的東芝組就投了五篇論文,并且五篇都被收錄了。
此后ACL中的中國聲音,就如同被按下了放大鍵,一路高歌向前,不斷加碼。
除了自身對于學術界的奉獻精神以外,王海峰也意識到了中國力量在ACL這樣的學術組織中地位的變化——中國的學術能力在崛起,可在學術影響力上卻稍遜一籌。
于是王海峰想到,自己競選ACL主席,能夠在這 一方面進行一些拉動,讓中國NLP不僅僅擁有學術成果,還能在學術界擁有更多話語權和撬動力。
根據《AI已來》一書中的說法,除了王海峰自身的成就和影響力,王海峰還將能夠當選的原因歸結為兩方面:
一方面是中國科學家在ACL的參與越來越頻繁,隨著被收錄論文數量的增加,ACL開始對中國聲音加以重視。
另一方面是他在百度的任職,代表了“中國科技企業”,當時整個世界開始發覺中國科技企業所蘊含的創新能量,開始關注起中國科技企業。
最后,自然也與王海峰個人的勤奮密不可分。
后來成為王海峰第一個博士生的郭江,在2010年曾經在百度NLP實習。
在他的印象里,那時的NLP非常小,只有二三十人, 王海峰就和團隊里所有人一樣,坐在開放區辦公,每天早早地來到公司,一整天都直直地挺著脊背。
一個幾十人的團隊,一位低調勤奮的領導。這樣的畫面怎么看都波瀾不壯闊,與“創新”“機會”、“改變”這些關鍵詞都毫無關系。
可事實卻恰恰相反,在百度,后來世界上第一個互聯網神經網絡翻譯系統、世界上最大的知識圖譜、助力無數合作伙伴的百度大腦語言與知識開放技術、小度機器人、大量科技企業爭相刷題競爭的閱讀理解數據集DuReader等等,都是在這個當時看似不起眼的團隊逐漸成長、逐漸孵化出來的。甚至可以說,百度AI的誕生,就從這里開始。

但從王海峰在百度NLP進行的一系列技術累積和前瞻布局來看,雙方的契合程度遠不止“學術能力”與“場景需求”。
同時也在于王海峰本人對于AI技術發展趨勢的預判,和百度對于這一系列判斷的信任和支持。
你可以說王海峰主導了百度NLP變革,也可以認為百度真正成就了王海峰。
但就在這種相互作用之間,中國NLP的「破圈」十年,真正得以實現。
現在,是時候乘風破浪了。
— 完 —
本文系網易新聞?網易號特色內容激勵計劃簽約賬號【量子位】原創內容,未經賬號授權,禁止隨意轉載。
量子位 QbitAI · 頭條號簽約作者
?'?' ? 追蹤AI技術和產品新動態
原標題:《頂會ACL這十年:百度披荊斬棘,中國NLP乘風破浪》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司