網絡不規范字詞研究：常見錯誤或通過輸入法記憶功能被固化

澎湃新聞記者李敏

2023-06-08 07:35

來源：澎湃新聞

網絡不規范用字問題頻發，不僅影響人們對漢字的理解和使用，也對公眾造成不良示范。一些常見錯誤可能會通過輸入法記憶功能固化錯誤選擇，成為網絡不規范字詞出現的重要原因。

6月8日，由澎湃新聞牽頭發起，上海人工智能研究院、上海市信息安全測評認證中心、上海新華傳媒連鎖有限公司和上海蜜度信息技術有限公司聯合共建的“數字內容生態實驗室”發布《網絡不規范用字用詞現象研究報告》。實驗室隨機抽取2022年12月到2023年3月期間互動論壇、數字報、客戶端、微博、網站、微信、短視頻平臺七類信源內容，形成具有4946.3萬條、706.6億字內容的樣本。經過排查發現，網絡語言環境中的不規范字詞主要包括誤用繁體字、異體字、異形詞、常見錯誤等。

報告顯示，按照錯誤類型統計，常見錯誤是出現頻率最高的類型，占比超過六成；繁體字也是較常出現的錯誤類型，占比達到20%；異體字、異形詞出現相對較少，因異形詞、異體字可將規范文件納入輸入法數據庫，通過選詞推薦等技術手段減少誤用。相較而言，形近字、形近詞錯選等常見錯誤以及公眾主觀通過錯用體現個性的情況更易發生，且可能通過輸入法記憶功能固化錯誤選擇，成為網絡不規范字詞出現的主要原因。

不規范字詞分類統計

針對互聯網不規范字詞現象，報告從多角度分析不規范使用行為背后的原因，包括人機交互輸入方式的限制、創作者能力參差不齊、網絡個性化表達促成不規范用字用詞風氣、專業內容平臺示范作用有待進一步發揮等。報告認為，其中，互聯網時代的人機交互方式是導致互聯網漢字不規范使用的重要原因。相比手寫等傳統記錄方式中逐字思考記錄，使用計算機錄入可通過輸入法的聯想功能大大加快內容輸入速度，但更容易出現形近、音近字選擇疏忽；輸入法選詞推薦同時呈現字音相同、字形相近、字義不同的易錯詞，增加了困惑和誤用的可能性。

對此，報告認為，以輸入法技術優化促進漢字規范使用是減少網絡不規范字詞最直接的方式之一。受技術限制，過往輸入法僅通過正在輸入的拼音等信息進行字詞推薦。結合人工智能語言模型等前沿技術優化輸入法功能，實現結合上下文語境推薦選詞，提高選詞準確性。在內容發布平臺引入智能不規范字詞監測工具，優化文本內容檢查功能，如微信公眾平臺的疑似錯別字自動檢測系統，以及澎湃清穹內容風控智能平臺、鈾媒等專業的內容審核、校對及管理工具，協助內容發布者正確規范用字用詞，形成互聯網正確使用字詞的氛圍；推廣針對不同文體、主題的不規范字詞檢查工具，以技術手段促進漢字文化傳承。

上海蜜度智能校對事業部總經理張曉娟表示，目前，國內已有智能校對系統能夠針對漢語特點，將字義、字形和字音三類信息以多模態方式編碼進大規模深度神經網絡中，捕捉句子的細粒度語義信息和長程語義依賴關系，實現錯別字、冗余、缺失、語法錯誤等文字差錯的自動識別，同時具備主動演進策略，能夠持續學習新的語言現象以改進校對效果，是人工智能技術在語言文字處理領域的典范，為語言文字規范性的監督管理工作提供了有力支撐。