长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

長篇大論中抓取精華,語音實時生成知識圖譜,這個系統(tǒng)可謂是首個

2020-08-06 17:10
來源:澎湃新聞·澎湃號·湃客
字號

機器之心報道

機器之心編輯部

基于文本生成知識圖譜的研究很常見,但是基于語音生成知識圖譜,這算是第一家。

在這個信息飛速發(fā)展的時代,數(shù)據(jù)呈爆炸式增長。而互聯(lián)網(wǎng)信息的多元性、異構(gòu)性、結(jié)構(gòu)松散等特點,給人們有效獲取信息和知識帶來了挑戰(zhàn)。

知識圖譜(Knowledge Graph) 憑借強大的語義處理能力,為互聯(lián)網(wǎng)時代的知識化組織和智能應用奠定了基礎,并被廣泛應用于智能搜索、知識問答、輿情分析等領域。

然而在現(xiàn)有的技術中,大部分研究集中在從文本轉(zhuǎn)化到圖譜的過程,卻忽略了從語音實時轉(zhuǎn)換到圖譜的研究。

本文將介紹一篇關于從語音到圖譜構(gòu)建的論文,可以說是該領域的首個相關研究。這篇來自明略科學院知識工程實驗室的論文已被人工智能國際頂會 IJCAI 2020 Demonstrations Track 接收。

論文鏈接:https://www.ijcai.org/Proceedings/2020/0777.pdf

論文簡介

近年來語音接口受到極大歡迎。以智能音箱為例,截至 2019 年,估計有 35%的美國家庭至少配備了一個智能音箱。目前盡管存在成熟的語音識別工具包和商業(yè)語音轉(zhuǎn)錄系統(tǒng),但面對長篇大論的交談中,人們?nèi)噪y以集中精力抓取其中的關鍵所在。而知識圖譜可以追溯到早期的專家系統(tǒng)研究和語義網(wǎng)絡,它提供了一種方法,這種方法可以可視化演講者的關鍵思想。

對于知識圖譜的概念有不同的定義。這篇論文遵循此定義:「知識圖譜作為一種數(shù)據(jù)表示工具,是對實體、屬性、概念以及它們之間的關系進行建模」。為了從語音中構(gòu)造知識圖譜,有兩個關鍵組件是必須的「實體 - 關系 - 實體」三元組和「實體 - 屬性」對,如圖 1 所示。

在此論文中,來自明略科技的研究者們提出了 HAO 圖譜,它基于 HAO 智能,而 HAO 智能整合了人類智能(HI),人工智能(AI)和組織智能(OI),實現(xiàn)了中文文本和語音知識圖譜的實時生成和可視化,填補了本領域的空白。

圖 1:知識圖譜可視化示例

該論文主要有三大貢獻:

該系統(tǒng)是已知首個公開發(fā)布的從語音中構(gòu)建知識圖譜的系統(tǒng);

該系統(tǒng)設計并實現(xiàn)實時的語音圖譜架構(gòu),能夠根據(jù)演講者的主題在圖譜之間切換;

該系統(tǒng)還可以從開放的中文篇章中生成知識圖譜。

系統(tǒng)架構(gòu)

HAO 圖譜系統(tǒng)到底是怎樣實現(xiàn)的?我們來看看它的技術架構(gòu)。

圖 2:系統(tǒng)整體架構(gòu)圖

語音轉(zhuǎn)文本三大模塊

首先,需要將語音轉(zhuǎn)換為文本,這需要三大模塊。

Monitor:語音是根據(jù) WebSocket 協(xié)議從前端 HTML 頁面?zhèn)鬏數(shù)摹T撃K通過端口實時監(jiān)控前端頁面發(fā)送的二進制語音流信號數(shù)據(jù),并將數(shù)據(jù)保存在緩沖池中。當緩沖池數(shù)據(jù)大于 16000 字節(jié)時,緩沖池中的二進制語音流數(shù)據(jù)傳輸?shù)胶罄m(xù)的「語音轉(zhuǎn)文本」模塊中。

ASR 模塊:該模塊將接收到的二進制語音流數(shù)據(jù)轉(zhuǎn)換為無標點的文本,并以多線程的方式將其發(fā)送到前端,得到「語音轉(zhuǎn)文本」顯示結(jié)果。緩沖池中的無標點文本則根據(jù)上下文信息進行校對和更正,修正后的結(jié)果被傳遞給后續(xù)的「文本標點」模塊。

標點模塊:該模塊通過在中國日報語料庫上基于 BERT 訓練的模型,將接收到的無標點文本數(shù)據(jù)轉(zhuǎn)換為帶有標點符號的文本數(shù)據(jù),并將轉(zhuǎn)換結(jié)果保存在文本緩沖池中。此緩沖池用于緩存已加標點的文本,這是因為只有在識別出完整的句子后,該句子才會被發(fā)送到后續(xù)的「知識圖譜構(gòu)建」服務中,因此該模塊會將完整的句子發(fā)送到知識圖譜構(gòu)建階段,最后一部分沒有標點符號的文本被緩存。如果帶標點的文本都是完整的句子,并且句號在文本的末尾,則緩沖池被清空。

知識圖譜構(gòu)建階段

將語音轉(zhuǎn)換成文本后,現(xiàn)在進入知識圖譜構(gòu)建階段。該論文介紹了基于文本構(gòu)建知識圖譜所需的 5 個關鍵步驟:

預處理:這一步驟包括了去除提取文本中的特殊字符,利用基于 BERT 的序列標注模型進行中文分詞和詞性分析,通過基于中心語驅(qū)動的短語結(jié)構(gòu)語法的神經(jīng)網(wǎng)絡模型進行依存句法分析。這些模型均在 Penn Chinese Treebank 數(shù)據(jù)集上訓練得到。

分塊(Chunking):根據(jù)預處理階段詞性標注和依存關系的結(jié)果,按照規(guī)則對名詞詞性(如專有名詞 NR 和其他名詞 NN 等)進行分組組合。規(guī)則包括但不限于兩個連續(xù)的專有名詞(組)、專有名詞后接其他名詞、專有名詞用標點符號或連詞隔開。值得一提的是,該合并過程是遞歸執(zhí)行的。例如,「人工智能,大數(shù)據(jù),及物聯(lián)網(wǎng)技術」這個短語中包含了三個專有名詞、一個標點符號和一個連詞。在分塊步驟中,這些詞被遞歸地合并為「人工智能,大數(shù)據(jù)及物聯(lián)網(wǎng)技術」,并產(chǎn)生最終的分塊結(jié)果。

指代消解:該模塊基于分塊得到的結(jié)果,將文本中待分析的代詞替換為指代消解模型的結(jié)果(即將代詞替換為所指的名詞)。

信息提取:在進行信息提取時,利用預處理步驟中解析的依存關系,將每個動詞短語作為候選三元組的謂詞,并將其作為根節(jié)點遍歷與其相關的名詞短語。然后使用基于規(guī)則的方法提取三元組。對于三元組的主客體,抽取規(guī)則包括但不限于:關系的主體(nsubj)作為三元組主語,關系的主體(dobj)作為三元組賓語。

后處理:最后,將上一步驟中獲得的三元組進行后處理操作,如刪除停用詞,將所有三元組集成起來并輸出。

主題切換

為了實現(xiàn)生動的可視化,該研究設計了一個基于圖數(shù)據(jù)庫數(shù)據(jù)和上游模塊返回結(jié)果來檢測主題變化的模塊。如果當前內(nèi)容與之前的內(nèi)容屬于同一主題,則圖數(shù)據(jù)庫中與該主題相關的所有實體關系都將發(fā)送到前端進行顯示。如果當前內(nèi)容和前面的內(nèi)容不屬于同一主題,則只有當前內(nèi)容的圖結(jié)果顯示在首頁上。

知識圖譜抽象化

在基于語音生成知識圖譜的過程中,語速快導致節(jié)點和邊的數(shù)量急劇增加。因此,從完整語音中生成可視化的知識圖譜變得非常復雜,這種情況甚至比原始文本更難理解。為了解決上述問題,該研究通過以下三個步驟對知識圖譜進行抽象化處理:

關鍵集提取:首先,對于數(shù)據(jù)集 NLPCC 2017 corpus 中的所有文檔集合,通過選擇 TF-IDF 最高的詞語,基于完全的語音轉(zhuǎn)錄文本獲得一組關鍵詞。另外,將中心度較高的節(jié)點選入關鍵節(jié)點集中。

抽象過濾:其次,應用規(guī)則從語音系統(tǒng)中獲取抽象化的知識圖譜。使用關鍵詞和關鍵節(jié)點集合之間的交集對「實體關系三元組」和「實體屬性對」進行過濾。

組件選擇:最后,從知識圖譜中選出最大連通分量。這一步很關鍵,因為小分量通常沒有明確的含義,如下圖 3 左上角所示。

圖 3:在執(zhí)行「組件選擇」步驟之前,基于長語音構(gòu)建的知識圖譜及其抽象(彩色部分)。

最后,作為首個基于語音實時生成知識圖譜的系統(tǒng),HAO 圖譜的效果如何呢?明略科技進行了滿意度調(diào)查。

在今年 1 月舉辦的 2000 人左右的會議上,該系 統(tǒng)實時地從兩小時的談話中提取知識圖譜。滿意度調(diào)查顯示,61.54% 的受訪者認為 HAO 圖譜有助于更清楚地了解談話內(nèi)容,41.76% 的受訪者認為該系統(tǒng)可以緩解認知疲勞。超過 65% 的受訪者對該系統(tǒng)是否加強了溝通方面給予了 5/5 星級的評價。

Amazon SageMaker 是一項完全托管的服務,可以幫助開發(fā)人員和數(shù)據(jù)科學家快速構(gòu)建、訓練和部署機器學習 模型。SageMaker完全消除了機器學習過程中每個步驟的繁重工作,讓開發(fā)高質(zhì)量模型變得更加輕松。

現(xiàn)在,企業(yè)開發(fā)者可以免費領取1000元服務抵扣券,輕松上手Amazon SageMaker,快速體驗5個人工智能應用實例。

? THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

原標題:《長篇大論中抓取精華,語音實時生成知識圖譜,這個系統(tǒng)可謂是首個》

閱讀原文

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            百家乐官网网络赌博网| 做生意什么花风水好| 皇冠足球即时比分| 试玩百家乐游戏机| 马牌百家乐现金网| 百家乐官网双龙出海注码法| 黑河市| 大世界娱乐城真人娱乐| 天猫百家乐娱乐城| 百家乐稳赢秘笈| 七匹狼百家乐官网的玩法技巧和规则 | 大发888娱乐城注册送筹码| 百家乐官网投注翻倍方法| 娱乐城简介| 德州扑克网上平台| 大发888娱乐城下载新澳博| 试玩百家乐帐| 什么叫百家乐的玩法技巧和规则 | 百家乐官网路单走势图| 百家乐官网赌博网址| 188金宝博娱乐城| 德州扑克胜率计算器| 百家乐园蒙| 百家乐网上赌博网| 百家乐算号软件| 百家乐官网娱乐礼金| 红桃K百家乐官网的玩法技巧和规则 | 宁夏| 澳门葡京赌场美女| 足球比分直播| 足球注册网站| 平果县| 开心8百家乐官网现金网| 帝王百家乐官网新足球平台| 百家乐官网赌博大揭密| 百家乐官网出千工具价格| 百家乐官网游戏图片| 百家乐官网五湖四海娱乐场| 百家乐官网网站程序| 百家乐官网路单破| 百家乐官网棋|