长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

我們在全網采集了700多億字,發現了這些不規范字詞問題

澎湃新聞記者 李敏
2023-06-08 07:30
來源:澎湃新聞
? 輿論場 >
字號

“當前網絡不規范用字現象不容樂觀,互動論壇、微博等互聯網公共社交平臺上常見錯誤、繁體字、異體字頻現,政府、媒體網站及新媒體宣傳賬號發布內容中也存在誤用和疏忽,對規范用字環境的形成造成不良影響。”

6月8日,由澎湃新聞牽頭發起,上海人工智能研究院、上海市信息安全測評認證中心、上海新華傳媒連鎖有限公司和上海蜜度信息技術有限公司聯合共建的“數字內容生態實驗室”發布《網絡不規范用字用詞現象研究報告》。針對上述現象,報告從錯誤類型、平臺渠道等角度深挖不規范字詞背后的規律,總結造成網絡不規范字詞現象的原因,建議成立由網絡監管部門牽頭、多方合作的網絡語言生態聯合體,以技術監管平臺建設、規范用字用詞評估、政策建議發布,形成促進互聯網語言規范化的合力,推動規范、積極、向上的互聯網語言生態建設。

現狀和成因分析

數字內容生態實驗室通過人工智能、大數據等技術手段對2022年12月到2023年3月期間互動論壇、數字報、客戶端、微博、網站、微信、短視頻平臺七類信源內容進行隨機抽取,形成具有4946.3萬條、706.6億字內容的樣本,排查異體字、異形詞、繁體字和常見錯誤出現情況,以錯誤類型、錯誤案例進行細分統計,對當前網絡環境中不規范字詞使用情況進行全面梳理,形成具有135.9萬次不規范字詞使用的數據庫。

TOP20不規范字詞

高頻不規范字詞統計

根據數據庫信息,常見錯誤是互聯網上主要出現的不規范用字(詞)形式,在TOP20高頻不規范詞中占9項。常見錯誤中帳(賬)號、蓮(連)花清瘟等屬于誤用形近別字,顫(戰)栗、架式(勢)等屬于誤用讀音相近的字。另外,互聯網上還存在通過為表達其他含意,故意使用不規范字的情況,如“米(美)國”。異形詞、繁體字各有5項出現。異形詞因音、義均相同,曾經都被廣泛使用,公眾依然延續舊有的使用習慣,具有易錯性。TOP20中繁體字中岀(出)、沒(沒)等與正確用字的字形非常相近,在快速輸入或手機等小屏幕輸入場景中易混淆;妳(你)、愛(愛)等被部分網友故意用于表達個性,因此出現頻率較高。

報告從多角度分析不規范使用行為背后的原因,指出互聯網時代的人機交互方式、創作者能力參差不齊、網絡個性化表達、專業內容平臺示范作用待進一步發揮等因素都是導致互聯網漢字不規范使用的原因。

建議規范使用引導措施

針對上述網絡不規范字詞現象,數字內容生態實驗室向政府、媒體、內容平臺、公眾等多元主體提出互聯網漢字規范使用建議互聯網漢字規范使用引導措施:

1、重視技術作用,推廣用字用詞規范。結合人工智能語言模型等前沿技術優化輸入法功能,實現結合上下文語境推薦選詞,提高選詞準確性。在內容發布平臺引入智能不規范字詞監測工具,優化文本內容檢查功能,如微信公眾平臺的疑似錯別字自動檢測,以及澎湃清穹內容風控智能平臺、鈾媒等專業的內容校對及管理工具,協助內容發布者正確規范用字用詞。

上海蜜度智能校對事業部總經理張曉娟表示,目前,國內智能校對系統能夠針對漢語特點,將字義、字形和字音三類信息以多模態方式編碼進大規模深度神經網絡中,捕捉句子的細粒度語義信息和長程語義依賴關系,實現文字差錯的自動識別,同時具備主動演進策略,能夠持續學習新的語言現象以改進校對效果,為語言文字規范性的監督管理工作提供了有力支撐。

2. 發揮政府、媒體正向影響力,做好主流引導示范。用好網絡傳播渠道,以身作則保障發布內容中字詞使用的規范性;強化內容管理與監督;引導公眾在積極參與中樹立正確規范的用字用詞意識。

3. 內容平臺發起倡議,形成規范用字氛圍。開展專項行動提高公眾對于不規范字詞現象的認識,重視內容監管,打擊不規范字詞表象下違反公序良俗的行為,營造清朗的網絡空間。

4. 開展專項監測,支撐語言規范推廣。在人工智能技術參與下,對互聯網內容進行大范圍采集,分析常見不規范用法呈現的規律及背后的原因。組建負責互聯網內容監管的技術平臺,發揮技術在語言文字規范治理中的作用,形成規范語言文字使用的合力。

此外,針對互聯網不規范字詞使用現狀,報告結合互聯網平臺信息傳播特征,建議由互聯網信息監管部門牽頭,聯合主流媒體、內容平臺、專業技術機構,成立網絡語言生態聯合體。開發互聯網內容規范監管技術平臺,對互聯網內容進行持續采集監測;研究確立科學的監測指標體系,進行數據挖掘、階段性對比分析;定期發布監測研究成果,總結不規范字詞成因及公眾在互聯網平臺的語言習慣,聚焦糾錯堵點,尋找有力抓手,提出具有針對性、可行性的規范用字對策建議。

中國傳媒大學國家語言資源監測與研究有聲媒體中心教授鄒煜表示,《網絡不規范用字用詞現象研究報告》的數據有代表性,據此發現的網絡不規范用字現狀及其特征有很強的代表性,對成因的分析也很到位,規范引導措施有較強的針對性和可操作性。

 

    責任編輯:馬世鵬
    圖片編輯:薛晶
    校對:劉威
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            新锦江百家乐官网娱乐平台| 百家乐官网桌子豪华| 百家乐官网投注最好方法| 极速百家乐真人视讯| 丁青县| 百家乐官网微笑玩| 百家乐官网网站加盟| 网络百家乐游戏机怎么破解| 百家乐官网斗视频游戏| 百家乐路纸表格| 澳门百家乐官网职业赌客| 金榜娱乐城| 威尼斯人娱乐场开户注册| 菲律宾百家乐官网赌场娱乐网规则 | 东源县| 百家乐虚拟视频| 百家乐官网公式软件| 博士百家乐官网现金网| 大上海百家乐娱乐城| 百家乐官网翻天超清| 百家乐官网注码调整| BET365官方网| 全讯网新2网址| 注册百家乐送彩金 | 百家乐官网投注哪个信誉好| 789棋牌游戏| 金冠娱乐城怎么样| 成都百家乐的玩法技巧和规则 | 网络百家乐官网游赌博| 百家乐官网百家乐官网论坛| 百家乐官网为什么庄5| 求购百家乐官网程序| 真钱轮盘| 金矿百家乐的玩法技巧和规则 | 百家乐官网赌场破解方法| 金阳县| 乐至县| 优博平台| 龙虎斗网站| 在线扎金花| 周口市|