- +1
百度為何加碼NLP
原創 科技唆麻 科技唆麻

會議主要分享了百度語言與知識技術的十年發展歷程、最新突破、產品新發布以及未來挑戰。
可以看到,百度在自然語言(NLP)上下了一盤大棋,且野心很大。
百度為什么布局NLP?因為語言與知識技術是人工智能認知能力的核心。換句話說,NLP是“人工智能皇冠上的明珠”。
眾所周知,人工智能是近幾年最熱門的話題,也是未來的大勢所趨:得人工智能者得天下。但讓機器擁有人一樣的心智,越來越趨近“智能”,還是道阻且長。這期間存在重重溝通障礙,其中,語言不通是核心障礙。
語言是意義的基石和載體:正如老話所說,語言命名萬物。語言不在了,人類賴以生存的整個意義世界和體系瞬間崩塌殆盡。所以,人工智能想要“智”,必須掌握人類的語言。
然而人類發展到今天,語言博大精深。我們早就習慣了用同一句話表達不同的意思:不同語境下,相同的語句可能有截然不同的意義。但對于并不具有人類心智機器來說,理解這些歧義難上加難。
在早期,最先出現的語言處理系統SHRDLU等,都具有局限性:當處于“真空環境”,用有限的詞匯對話、處理時,可以正常運行,然而,當把這個系統應用于充斥著不確定性的現實世界時,它們并不能勝任工作。
比如,“我們把青草給兔子,因為它們餓了”和“我們把青草給兔子,因為它們熟透了”有同樣的結構。但是代詞“它們”在第一句中指的是“兔子”,在第二句中指的是“青草”。如果不了解動物和植物的屬性,無法區分。
所以,語言是人工智能路上的最大障礙。也正因如此,如果解決了人和機器的溝通障礙,也就掌握了打開人機交互通道的鑰匙。
因此,不難理解百度等巨頭在NLP上的加碼:事實上,NLP不僅僅是幫助計算機學習人類的語言,更是在幫助計算機掌握人的心智——了解人類的思維體系和溝通方式。
所以,從2010年,百度成立自然語言處理部開始,一直不斷加碼。比如,數據匱乏、算力不足歷來是語言與知識技術研發中面臨的瓶頸。
為突破瓶頸,百度聯合中國計算機學會、中國中文信息學會發起中文自然語言處理數據共建計劃——千言,解決數據稀缺問題。
千言一期由來自國內11家高校和企業的數據資源研發者共同建設,已涵蓋開放域對話、閱讀理解等7大任務,20余個中文開源數據集。
不止如此。正如百度CTO王海峰的回顧,“在百度語言與知識技術的布局和發展中,我們始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢。”
可以看到,百度NLP不僅在技術突破上成就斐然,在產品落地上也做出了一定成績。
01
百度技術突破
百度NLP的成績怎么樣?
可以看到,十年來,百度大腦語言與知識技術成果頗豐:獲得包括國家科技進步獎在內的20多個獎項,30多項國際競賽冠軍,發表學術論文超過300篇,申請專利2000多項。
同時,技術不斷突破創新的同時,也在產品上創新探索,具有可落地性,為具體產業賦能。
而此次會議,王海峰全面分享了百度語言與知識技術完整布局和最新成果。
首先,百度打造了世界上最大規模知識圖譜。
知識圖譜是機器認知世界的重要基礎:相當于教幼童時代的機器“看圖識字”。而百度擁有超過50億實體和5500億事實,并在不斷演進和更新。如今,百度知識圖譜應用于各行各業,每天的調用次數超過400億次。
其次,在融入知識的基礎上,語言理解能力不斷增強。
2019年3月,百度提出知識增強的語義理解框架ERNIE,在深度學習的基礎上融入知識,同時具備持續學習能力,曾登頂全球權威數據集GLUE榜單,首次突破90分大關,刷新榜單歷史。基于知識圖譜和語義表示,突破了閱讀理解、對話理解以及跨模態深度語義理解等技術。
不止如此,語言生成是語言與知識技術中的重要組成部分。
基于預訓練技術的成功經驗,百度提出基于多流機制的語言生成預訓練技術,兼顧詞、短語等不同粒度的語義信息,顯著提升生成效果。百度也探索了多文檔摘要生成,通過圖結構語義表示引入篇章知識,在單文檔和多文檔摘要生成效果都有提升。
除此之外,百度在應用系統層面,對話系統和機器翻譯等成績卓著。
百度提出了知識圖譜驅動的對話控制技術,以及首個基于隱空間的大規模開放域對話模型PLATO等,并推出智能對話定制和服務平臺UNIT,幫助開發者高效構建智能對話系統,實現規模化應用。
如今,百度翻譯支持200多種語言,每天響應超過千億字符的翻譯請求,支持超過40多萬家第三方應用,技術上,提出了多智能體聯合學習、基于語義單元的同傳模型、稀缺語種分組混合訓練算法等。
同時,這些技術以平臺化的方式輸出,通過賦能,持續提升產業智能化水平。
02
百度NLP落地應用
如果一項技術不能落地,那它就只能居于空中樓閣。百度NLP顯然不是這樣的海市蜃樓:相反,它積極落地,并已生根開花。
正如百度方面表示:“我們一直致力于將語言與知識技術凝聚成一系列技術平臺和產品,在應用中產生大量價值,為廣大開發者和產業實踐者提供以語言與知識技術為核心驅動的系列產品?!?/p>
在具體的場景中,NLP有具體的應用。
比如,百度推出的語義理解技術與平臺文心,基于深度學習平臺飛槳打造,依托領先的語義理解核心技術,集成優秀的預訓練模型、全面的NLP算法集、端到端開發套件和平臺,提供一站式NLP開發與服務,讓開發者更簡單、高效地定制企業級NLP模型。文心經過了大量真實應用場景的淬煉,具備優秀的工業級落地實力。
再比如,百度全新發布的智能文檔分析平臺TextMind,基于OCR、NLP技術,以文檔解析為核心能力,支持文檔對比與文檔審核,具備“多快好省”的核心優勢,促進企業辦公智能升級。
與此同時,百度大腦智能創作平臺針對媒體應用場景再升級,全新推出智能策劃、智能采編、智能審校三大媒體場景方案,進一步助力媒體人更快、更好地創作,切中媒體人的“痛點”。
智能對話定制與服務平臺UNIT升級,有更智能的任務式對話理解、極致便捷的表格問答和融合通用的新對話引擎。此次UNIT全新升級的三大能力,將進一步降低任務式對話、智能問答的定制成本,并融合通用對話能力,提升交互體驗。
全新發布的AI同傳會議解決方案,覆蓋會議全場景、全流程,旨在打造用戶隨身的“會議同傳專家”。
吳甜現場展示了如何只用一臺電腦和一部手機快速搭建一套同傳服務,只需點點鼠標、打幾個字,就能快速獲得專業的同傳服務。
吳華還發布了百度語言與知識技術算力共享計劃,通過百度AI STUDIO平臺提供算力支持,讓廣大開發者破除算力桎梏,專注于技術創新。
正如百度技術委員會主席吳華表示:
“未來,我們希望有更多的數據集作者能夠參與共建千言,共同推動中文信息處理技術的進步,建設世界范圍的中文信息處理影響力。我們計劃在未來3年,面向20多個任務,收集和建設不少于100個中文自然語言處理數據集,覆蓋語言與知識技術全部領域?!?/p>
原標題:《百度為何加碼NLP》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司