- +1
從誕生到繁榮,自然語言處理在今天
文/陳根
20世紀50年代,圖靈提出著名的“圖靈測試”,引出了自然語言處理的思想,而后,經過半個多世紀的跌宕起伏,歷經專家規則系統、統計機器學習、深度學習等一系列基礎技術體系的迭代,如今的自然語言處理技術在各個方向都有了顯著的進步和提升。
自然語言是指漢語、英語、法語等人們日常使用的語言,是人類社會發展演變而來的語言,而不是人造的語言,自然語言是人類學習生活的重要工具。
自然語言在整個人類歷史上以語言文字形式記載和流傳的知識占到知識總量的 80%以上。就計算機應用而言,據統計,用于數學計算的僅占10%,用于過程控制的不到5%,其余 85%左右則都是用于語言文字的信息處理。

自然語言處理(Natural Language Processing,NLP)是將人類交流溝通所用的語言經過處理轉化為機器所能理解的機器語言,是一種研究語言能力的模型和算法框架,是語言學和計算機科學的交叉學科,是實現人機間的信息交流,是人工智能、計算機科學和語言學所共同關注的重要方向。
自然語言的處理流程大致可分為五步:
第一步,獲取語料。
第二步,對語料進行預處理,其中包括語料清理、分詞、詞性標注和去停用詞等步驟。
第三步,特征化,也就是向量化,主要把分詞后的字和詞表示成計算機可計算的類型(向量),這樣有助于較好的表達不同詞之間的相似關系。
第四步,模型訓練,包括傳統的有監督、半監督和無監督學習模型等,可根據應用需求不同進行選擇。
第五步,對建模后的效果進行評價,常用的評測指標有準確率(Precision)、召回率(Recall)、F值(F-Measure)等。準確率是衡量檢索系統的查準率;召回率是衡量檢索系統的查全率;而F值是綜合準確率和召回率用于反映整體的指標,當 F 值較高時則說明試驗方法有效。
比爾·蓋茨曾說:“語言理解是人工智能皇冠上的明珠”??梢哉f,誰掌握了更高級的自然語言處理技術,誰在自然語言處理的技術研發中取得了實質突破,誰就將在日益激烈的人工智能軍備競賽中占得先機。
作為一門包含著計算機科學、人工智能以及語言學的交叉學科,自然語言處理的發展也經歷了曲折中發展的過程。
1950 年圖靈提出的著名的“圖靈測試”,被認為是自然語言處理思想的開端。20世紀50年代到70年代自然語言處理主要采用基于規則的方法,即認為自然語言處理的過程和人類學習認知一門語言的過程是類似的,彼時,自然語言處理還停留在理性主義思潮階段,以基于規則的方法為代表。
然而,基于規則的方法具有不可避免的缺點,首先規則不可能覆蓋所有語句,其次這種方法對開發者的要求極高,開發者不僅要精通計算機還要精通語言學,因此,這一階段雖然解決了一些簡單的問題,但是無法從根本上將自然語言理解實用化。
70 年代以后,隨著互聯網的高速發展,豐富的語料庫成為現實以及硬件不斷更新完善,自然語言處理思潮由理性主義向經驗主義過渡,基于統計的方法逐漸代替了基于規則的方法。
賈里尼克和其領導的IBM華生實驗室是推動這一轉變的關鍵,他們采用基于統計的方法,將當時的語音識別率從70%提升到90%。在這一階段,自然語言處理基于數學模型和統計的方法取得了實質性的突破,從實驗室走向實際應用。
從 20世紀 90年代開始,自然語言處理進入了繁榮期。1993年7月在日本神戶召開的第四屆機器翻譯高層會議(MT Summit IV)上,英國著名學者William John Hutchins教授在他的特約報告中指出,自1989年以來,機器翻譯的發展進入了一個新紀元。
這個新紀元的重要標志是在基于規則的技術中引入了語料庫方法,其中包括統計方法、基于實例的方法、通過語料加工手段使語料庫轉化為語言知識庫的方法等等。這種建立在大規模真實文本處理基礎上的機器翻譯,是機器翻譯研究史上的一場革命,它將會把自然語言處理推向一個嶄新的階段。隨著機器翻譯新紀元的開始,自然語言處理進入了它的繁榮期。
尤其是20世紀90年代的最后5年(1994一1999)以及 21世紀初期,自然語言處理的研究發生了很大的變化,出現了空前繁榮的局面。這主要表現在三個方面。
首先,概率和數據驅動的方法幾乎成了自然語言處理的標準方法。句法剖析、詞類標注、參照消解和話語處理的算法全都開始引入概率,并且采用從語音識別和信息檢索中借過來的評測方法。
其次,由于計算機的速度和存儲量的增加,使得在語音和語言處理的一些子領域,特別是在語音識別、拼寫檢查、語法檢查這些子領域,有可能進行商品化的開發。語音和語言處理的算 法 開 始 被 應 用 于 增 強 交替 通 信(augmentative and alternative communication,AAC)中。
最后,是網絡技術的發展對于自然語言處理產生了的巨大推動力。萬維網(World Wide Web,WWW)的發展使得網絡上的信息檢索和信息抽取的需要變得更加突出,數據挖掘的技術日漸成熟。而 WWW 正是由自然語言構成的,因此,隨著 WWW的發展,自然語言處理的研究變得越發重要。
如今,在圖像識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來做自然語言處理研究, 2013年,word2vec將深度學習與自然語言處理的結合推向了高潮,并在機器翻譯、問答系統、閱讀理解等領域取得了一定成功。
作為多層的神經網絡,深度學習從輸入層開始經過逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓練。把輸入到輸出對的數據準備好,設計并訓練一個神經網絡,即可執行預想的任務。 RNN已經成為自然語言處理最常用的方法之一,GRU、LSTM等模型則相繼引發了一輪又一輪的自然語言識別熱潮。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司