下載客戶端

登錄

首家強化學習大規模落地工業應用，快手是如何做到的？

2020-08-10 14:46

來源：澎湃新聞·澎湃號·湃客

原創 Synced 機器之心

機器之心報道

編輯：澤南

快手的日活躍用戶數量超過三億，其背后是業界領先的人工智能技術。

人工智能技術正被科技公司廣泛應用在產品中，谷歌等公司已在搜索引擎中加入了 BERT 這樣的預訓練模型，而強化學習這種需要耗費大量算力的方法也已成為快手推薦系統的核心。

近日，我們與快手核心推薦算法團隊技術負責人，卡耐基梅隆大學博士葉璨聊了聊，他向我們介紹了快手在推薦系統等核心業務中引入強化學習技術的歷程，以及大規模應用強化學習技術帶來的業務收益。

葉璨博士畢業于卡內基梅隆大學（CMU），此前曾擔任百度資深架構師。他在 2017 年加入快手社區科學部，作為算法負責人負責推薦算法、強化學習、增長廣告等技術方向。期間從 0 到 1 建立核心算法團隊，主要工作之一是主導了強化學習技術在快手推薦等核心業務的落地及大規模應用。

今天當我們在刷快手的時候，我們會獲得什么樣的體驗？

「個性化推薦算法決定了，用戶每一次刷快手時，會看到什么樣的視頻內容」葉璨博士說道?！竿扑]系統是快手生態體系的核心，而個性化推薦算法可以在每天新增數千萬視頻的海量視頻庫中，幫助用戶高效地獲取感興趣的視頻內容，最大程度吸引用戶，提升用戶留存和粘性。」

在快手的核心推薦算法團隊，AI 科學家和算法工程師們一直在不斷迭代推薦的核心技術，打造業界最前沿的推薦算法、技術能力，希望給用戶帶來最好的內容推薦體驗。

強化學習技術這一 AI 領域的重要技術方向，在最近這波 AI 浪潮中，由 AlphaGo 而逐漸被人們所熟知。在推薦和廣告算法領域，強化學習也在成為重要的技術趨勢。

快手平臺上每天有數億用戶進行短視頻內容的消費，而這背后有業界最大規模之一的推薦系統提供支持。超大規模的推薦系統也為最前沿的 AI 技術提供了創新平臺?？焓滞扑]團隊在業界率先落地了基于強化學習技術的推薦系統，基于強化學習的推薦模型已在為數億用戶提供日常的推薦服務。它可以更精準、更實時地捕捉和滿足用戶的興趣，并帶來更高好的內容多樣性。

基于強化學習的視頻推薦

在 AlphaGo 中出現的強化學習算法，是如何幫助你刷快手的？具體來說，用戶的每次推薦請求，都是由推薦系統從數千萬的候選視頻中挑選出數個視頻返回給用戶的。整個過程大致分為兩個階段：

召回：從千萬量級的視頻庫中篩選出數百相關的候選視頻，主要基于策略規則和簡單模型。

排序：從數百候選視頻中挑選出最終展示的若干視頻（一般為數十）返回給用戶，這一階段我們需要應用相對復雜、精準的模型。排序問題可以建模成從 M 個視頻的候選集中挑選出 N 個視頻組成的有序列表。

由此可見，排序是推薦系統的核心任務。在這個過程中，傳統推薦排序算法通常會采用 point-wise 排序框架，基于經驗公式或者排序模型，「獨立」地預估每個候選視頻的排序分數，并按分數從高到低排序，截取 top N 視頻返回。

這一方法可能面臨一個重要的問題：排序模型忽略了相鄰視頻間的影響，無法從視頻序列的角度優化整體的推薦效果，這和信息流產品形態間存在天然的形態隔閡。

如果用戶喜歡某一類視頻，傳統方法會獨立對每個候選視頻打分，這就會傾向于將同類視頻排到前面，造成推薦內容的同質化，長期如此很可能會造成用戶對內容的厭倦。對此，傳統方法還會加入基于規則的多樣性打散策略，但這種思路顯然不是最優方案。

快手核心推薦團隊創新地采用強化學習重新定義了推薦排序技術：提出了基于強化學習的序列化排序框架，將輸出 N 個視頻序列的任務建模為連續進行 N 次決策的過程，依次從候選集中挑選出 N 個視頻。強化學習排序模型端到端地完成整個推薦排序過程，從數百視頻候選集中挑選出由數十個視頻組成的有序列表，并返回展示給用戶。

示意圖：傳統排序算法 vs 強化學習排序算法。

在強化學習模型排序的過程中，每次挑選視頻的目標都是最大化視頻序列的整體「獎勵」，例如優化視頻序列的整體觀看時長?！高@個過程和下圍棋的人工智能類似，」葉璨介紹道。「在下棋的過程中，棋手不能只考慮當前這步棋的收益，而需要有更長遠、更全局的視角去考量，有時會需要犧牲短期利益?！挂曨l內容推薦也可以按照這樣的思路來進行建模，從視頻序列角度優化整體的推薦效果，同時保證推薦內容的多樣性。

另外，強化學習排序算法可以保證更好的推薦精準性與實時性：在用戶的每次反饋（點擊、點贊、轉發...）發生之后，系統都會通過強化學習算法完成排序模型的在線更新。

每個人都有機會與頂尖 AI 對戰

除了視頻推薦之外，快手的強化學習技術也已應用在了旗下的多款小游戲中。如果你玩過快手平臺的斗地主、五子棋、斗獸棋、象棋等游戲，你的對手可能會是系統指派的人工智能。

目前，AI 陪玩可能會出現在新手期，或是游戲玩家數量低峰期，當然如果你的水平足夠高，也會在最高難度上遇到「超越人類水平」的 AI，感受一下 AlphaGo 帶來的恐懼。

在游戲 AI 領域，研究人員自 2018 年初就開始在游戲中嘗試強化學習技術。游戲 AI 在快手游戲產品中的主要應用形態是陪玩，這對處于孵化階段（用戶數有限）的游戲產品尤為重要。從 2018 到 2019 年，游戲 AI 技術在快手的多款棋牌類游戲上完成了落地，支持了快手游戲業務的快速發展。

強化學習已經重新定義了游戲 AI 的生產方式。在傳統的游戲 AI 中，不論是基于規則的方法還是監督學習的方法都嚴重依賴于人類專家提供的經驗和數據，最終實現的智能水平也相對有限，且無法實現動態的 AI 難度分級。

而這一切對于強化學習游戲 AI 來說并不是難事。在游戲上，快手已應用了通用游戲 AI 算法框架，其使用基于自我博弈的強化學習技術（self-play reinforcement learning），不僅可以在特定游戲上扮演不同難度的 AI 玩家，還可以實現自動化生產：只需要輸入游戲規則，不依賴人類經驗或數據而完全由 AI 自我博弈產生數據，通過強化學習算法實現 AI 能力的訓練和進化。

這一技術的本質類似于 DeepMind 的圍棋人工智能 AlphaGo Zero，是基于自我博弈強化學習的通用算法框架，可以擴展到多個不同領域，由 AI 自我博弈產生訓練數據，通過強化學習算法實現智能體的自我訓練和性能提升。

不過相比 AlphaGo，快手游戲 AI 更加面向應用，它可以在線為成千上萬的游戲玩家提供服務，不僅考慮了游戲 AI 的高水平，還兼顧了其他產品需求，包括 AI 智能分級（為不同水平的用戶提供相應智能等級的 AI），擬人化等。

落地核心業務，做最精準的流量分發

作為目前中國最大的流量平臺之一，快手的流量生態包含了各種業務流量的混合，包括視頻推薦、直播、運營、電商、廣告等，內容對用戶的精準觸達，是快手的核心業務問題。

快手在流量分發業務中大規模地應用了強化學習技術，比如最大的流量入口 - 個性化 tab 分發，以及各垂類產品在 feed 流中的精準分發，包括直播、游戲、音樂、社交等業務。

比如用戶每次打開快手 app，強化學習算法會決定你跳轉到發現、關注、同城中的哪個 tab 頁面。強化學習接管的位置，是快手最大的流量分發入口，涉及主頁三大 tab 頁面的流量分配，影響 app 的使用時長、DAU（日活躍用戶數量）等關鍵指標。算法會參考用戶的行為偏好、習慣等進行流量分發，例如用戶在特定時間段喜歡進入某個 tab 頁進行消費。同時算法也會根據實時的 feed 信息進行主動引導，例如關注頁有喜歡主播開播，會將用戶跳轉引導至關注頁。

在垂類業務的流量分發中，快手已在形態上改變了傳統的推送方式，他們在 feed 流中插入垂類聚合頁，由算法決定聚合頁的展示時機，其中包括音悅臺、游戲 TV、PYMK 、直播廣場等垂類產品。

在這里，基于傳統的數據挖掘或策略規則無法做到實時準確，只有通過強化學習算法才能夠實現精準分發。「如果內容被推送給了不合適的用戶，或者在不合適的時機，展示聚合頁入口，不僅難以形成垂類業務的消費和轉化，還會影響用戶正常的 feed 流體驗，」葉璨說道。

快手的算法以流量為粒度進行決策，每次決策的目標都是最大化一段時間內的整體收益，同時保持在線學習和更新，用戶的每次反饋后，強化學習決策算法都會更新模型，快速適應用戶的行為習慣。通過不斷強化用戶反饋，系統逐漸收斂達到最優的流量分發策略，同時也保持了實時更新的能力。

從零到一的探索

強大技術的背后，是快手核心推薦算法團隊不懈的努力。早在 2018 年，快手就在推薦系統上開始嘗試強化學習技術?！府敃r業界沒有任何成熟落地的方案可以參考，」葉璨表示。「部分研究團隊已經有一些論文，關于強化學習在推薦、廣告、搜索領域的應用，但大多偏向于概念，距離實用化還有一段距離。而我們的目標一直是應用落地，我們希望能夠用強化學習技術解決推薦系統的核心問題?！?/p>

快手成為了強化學習推薦技術的先行者。在推薦系統哪個階段應用強化學習技術，應該采用哪類強化學習算法，強化學習推薦模型的在線訓練框架應該如何設計等等，這些問題都是從零開始探索的。

快手選擇在推薦系統的核心——推薦排序階段應用強化學習技術，它決定了應用最終向用戶展示哪些視頻，以及視頻的排列順序。在推薦算法領域，快手的 AI 科學家和算法工程師們完成了一項最前沿的技術突破，重新定義了推薦排序技術，使推薦系統具備了優化視頻序列整體收益的能力。

2018 年底，快手在新用戶推薦上完成了強化學習排序算法的驗證和成功上線。2019 年，這一技術拓展應用到了全量用戶，完成了對推薦全流量的覆蓋。

現在，基于強化學習的推薦系統每天為數以億計的快手用戶提供著實時的個性化推薦服務。強化學習推薦技術的研發和落地，是快手推薦過去兩年最重要的技術突破。這項技術也帶來了更好的推薦效果和用戶體驗，推薦核心指標（如用戶觀看時長）的提升達到 10% 以上，這也是過去兩年快手推薦單項技術上線帶來的最大幅度的指標提升。

與此同時，快手將目光瞄準新的應用場景 - 精準流量分發。在業界，快手創新地首次采用強化學習技術解決流量的精準分發問題，并將精準流量分發技術以中臺化的形式輸出至快手多個重要業務場景。目前在快手，這一技術已普及成為流量分發問題的常態化解決方案。

快手的算法可以在不影響用戶正常 feed 流體驗的同時，最大程度地幫助不同的產品和業務在合適時機完成對合適用戶的精準觸達，從而形成有效的用戶轉化。在一些業務場景下，相對于傳統策略，強化學習算法對分發效率提升達到了 100% 以上。通過先進的算法，快手確保了流量的精準觸達，幫助不同垂類業務實現了有效的用戶轉化、規模增長，提升了用戶粘性和業務壁壘。

強化學習，已經成為快手的殺手锏級技術?？焓直硎荆芏鄧饪萍季揞^也尚未做到強化學習技術的大規模落地和應用。

「強化學習已經成為推薦、廣告算法領域最重要的技術趨勢，各大公司相關算法團隊紛紛嘗試，但據我們了解，基本還處于研究和驗證階段，」葉璨說道?！覆簧侔l表的 paper 離實際業務場景相差較遠，能經過線上 AB 實驗驗證的工作很少，更不用說在全流量上完成落地和覆蓋?！?/p>

基于強化學習的推薦技術已經成為快手推薦系統的基礎設施與核心能力，從技術成熟度和應用規模而言，快手推薦無疑是業界領先的。隨著互聯網 C 端競爭的不斷深入，科技公司在行為上也更加趨同，這些先進技術，已為快手帶來了額外的優勢。

目前快手核心推薦算法團隊，多數來自于清北、CMU 等國內外頂尖高校的博士、碩士，以及來自 BAT 等知名公司的工程師。團隊成員曾在 NeurIPS、ICML、IJCAI、KDD 等 AI 頂會上多次發表論文。目前，團隊的技術支撐了快手的推薦、流量分發、增長廣告、游戲等核心業務。

「我們希望從實際問題出發，以解決核心業務問題作為唯一衡量標準，」葉璨表示?！窤I 算法是解決問題的手段，不是目的，我們會根據實際面臨的業務系統，設計合理的技術方案。我們將繼續致力于解決核心業務問題，為快手的業務增長做出貢獻?！?/p>