- +1
梁文鋒楊植麟論文撞題,“注意力機制”對大模型意味著什么
2月18日,在大洋彼岸的馬斯克秀出最新大模型Grok 3當天,國產AI公司深度求索(DeepSeek)最新一篇論文引發關注,創始人梁文鋒在署名之列,并2月16日提交到預印本平臺arxiv。

這篇論文的核心關于NSA(Natively Sparse Attention,原生稀疏注意力)。據DeepSeek,上下文建模對于下一代語言模型至關重要,但標準注意力機制的高計算成本帶來了巨大的計算挑戰。NSA(稀疏注意力)在提高效率同時,為提高模型能力提供新的方向,實現將算法創新與硬件對齊的優化相結合,進行高效的長上下文建模。
DeepSeek在論文中介紹,NSA采用動態分層稀疏策略,將粗粒度標記壓縮與細粒度標記選擇相結合,以保持全局上下文感知和局部精度。通過兩項關鍵創新推進稀疏注意力設計:第一,通過算術強度平衡算法設計實現了顯著的加速,并針對現代硬件進行了實現優化。第二,支持端到端訓練,在不犧牲模型性能的情況下減少預訓練計算。
實驗表明,使用 NSA 預訓練的模型在一般基準、長上下文任務和基于指令的推理中保持或超過了全注意力模型。同時,NSA在64k長度序列的解碼、前向傳播和后向傳播過程中實現比全注意力機制顯著的加速,驗證其在整個模型生命周期中的效率。
“此次DeepSeek發布的論文,可以稱為基石更新。”業內人士向澎湃新聞記者評論,此前的DeepSeek-R1的瓶頸在于輸入上下文能力方面相對不足,此次更新正是解決了原先大模型文字處理的問題。從內容來看,NSA主要針對長上下文高速訓練,在長上下文情況下,相比原先的結構有更慢的性能衰減,這導致長思維鏈的 COT 效果會更好,對于復雜數學推導非常有價值。
據業內人士分析,DeepSeek此次是劍指大模型最核心的注意力機制。Transformer架構是現有大部分大模型繁榮的基礎,但其核心算法注意力機制存在先天問題:為了理解和生成,會閱讀文本里的每個詞,并拿它與其他所有詞作比較,導致處理文本越長,技術就會越卡,甚至崩潰。
通過NSA新架構,和Transformer原先傳統的注意力機制相比,準確率相同或更高,處理64k標記序列時速度可提高至11.6倍,且訓練更高效,所需算力更少。
值得注意的是,此次論文作者中,梁文鋒在作者排名中位列倒數第二。而第一作者是袁景陽(Jingyang Yuan)。據公開信息,袁景陽目前是北京大學碩士研究生,研究領域包括LLM和AI for Science,目前是DeepSeek的實習生,據袁景陽個人主頁,他在去年參與7篇論文的撰寫。
此前,在發布Grok 3同時,馬斯克透露,Grok 3的計算能力是Grok 2的10倍以上,訓練過程累計消耗20萬張英偉達GPU。而梁文鋒的訓練思路似乎與馬斯克截然相反,更關注如何在更少算力消耗下,達到更好的計算效果。
有趣的是,對于馬斯克堅持大力出奇跡的思路,另一家國內大模型獨角獸“月之暗面”幾乎在同時提出挑戰。
2月18日,就在DeepSeek論文發布當天,月之暗面創始人楊植麟也帶領團隊發布最新論文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS(直譯為“MoBA:面向長上下文大語言模型的塊注意力混合方法”)》,提出了與NSA類似的稀疏注意力框架MoBA,并設計了一套可以自由切換全注意力和稀疏注意力機制的方式,為已有的全注意力模型更多的適配空間。
據介紹,MoBA是“一種將混合專家(MoE)原理應用于注意力機制的創新方法”,旨在提高長文本處理效率。經過Kimi平臺驗證,MoBA架構能將處理1M長文本的速度提升6.5倍,將處理10M長文本的速度提升16倍。
MoBA提升效率的關鍵手段在于僅關注部分鍵值。Kimi團隊把完整的上下文劃分成“塊(block)”、讓每個查詢token自動關注最相關的KV(鍵值)塊,從而實現長序列數據的高效處理,并提出一種新的top-k門控機制,無需額外訓練參數,為每個查詢token挑選出最相關的“塊”,保證模型的注意力聚焦在包含最有用信息的“塊”上。
Kimi團隊表示,開展這項研究的原因在于,在傳統注意力機制中,計算復雜度隨著序列長度的增加而呈平方級增長,阻礙了模型對長序列的高效處理。MoBA架構能夠輕松融入現有模型,不需要高昂的訓練成本,并實現與全注意力模式的無縫切換。
國產AI競賽正在日益加劇中。1月20日,中國AI初創公司深度求索(DeepSeek)推出大模型DeepSeek-R1。作為一款開源模型,R1在數學、代碼、自然語言推理等任務上的性能能夠比肩OpenAI o1模型正式版,并采用MIT許可協議,支持免費商用、任意修改和衍生開發等。春節假期后,國內多個行業龍頭公司均宣布接入DeepSeek。
2月8日,QuestMobile數據顯示,DeepSeek在1月28日的日活躍用戶數首次超越豆包,隨后在2月1日突破3000萬大關,成為史上最快達成這一里程碑的應用。
DeepSeek的爆發正在重塑中國大模型行業,從過去的“燒錢換估值”轉向關注技術性價比與商業化閉環。在這個日新月異的賽道,由DeepSeek引領的開源已成為大模型整體潮流,2月18日,階躍星辰和吉利汽車聯合宣布,將雙方合作的階躍兩款Step系列多模態大模型向全球開發者開源。其中,包含目前全球范圍內參數量最大、性能最好的開源視頻生成模型階躍Step-Video-T2V,以及行業內首款產品級開源語音交互大模型階躍Step-Audio。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司