长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

谷歌大腦新研究:單一任務的強化學習遇瓶頸?

2020-04-12 20:59
來源:澎湃新聞·澎湃號·湃客
字號

原創 關注前沿科技 量子位

魚羊 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

雅達利游戲,又被推上了強化學習基礎問題研究的舞臺。

來自谷歌大腦的最新研究提出,強化學習雖好,效率卻很低下,這是為啥呢?

——因為AI遭遇了「災難性遺忘」!

所謂災難性遺忘,是機器學習中一種常見的現象。在深度神經網絡學習不同任務的時候,相關權重的快速變化會損害先前任務的表現。

而現在,這項圖靈獎得主Bengio參與的研究證明,在街機學習環境(ALE)的單個任務中,AI也遇到了災難性遺忘的問題。

研究人員還發現,在他們提出的Memento observation中,在原始智能體遭遇瓶頸的時候,換上一只相同架構的智能體接著訓練,就能取得新的突破。

單一游戲中的「災難性干擾」

在街機學習環境(Arcade Learning Environment,ALE)中,多任務研究通常基于一個假設:一項任務對應一個游戲,多任務學習對應多個游戲或不同的游戲模式。

研究人員對這一假設產生了質疑。

單一游戲中,是否存在復合的學習目標?也就是說,是否存在這樣一種干擾,讓AI覺得它既要蹲著又要往前跑?

來自谷歌大腦的研究團隊挑選了「蒙特祖瑪的復仇」作為研究場景。

「蒙特祖瑪的復仇」被認為是雅達利游戲中最難的游戲之一,獎勵稀疏,目標結構復雜。

研究人員觀察到,CTS模型計算的Rainbow智能體,會在6600分的時候到達瓶頸。更長時間的訓練和更大的模型大小都不能有所突破。

不過,只需從這個位置開始,換上一只具有相同架構的新智能體,就能突破到8000分的水平。

如此再重置一次,AI的最高分就來到了14500分。

需要說明的是,在換上新智能體的時候,其權重設置與初始的智能體無關,學習進度和權重更新也不會影響到前一個智能體。

研究人員給這種現象起了一個名字,叫Memento observation。

Memento observation表明,探索策略不是限制AI在這個游戲中得分的主要因素。

原因是,智能體無法在不降低第一階段游戲性能的情況下,集成新階段游戲的信息,和在新區域中學習值函數。

也就是說,在稀疏獎勵信號環境中,通過新的獎勵集成的知識,可能會干擾到過去掌握的策略。

上圖是整個訓練過程中,對游戲的前五個環境進行采樣的頻率。

在訓練早期(左列),因為尚未發現之后的環節,智能體總是在第一階段進行獨立訓練。到了訓練中期,智能體的訓練開始結合上下文,這就可能會導致干擾。而到了后期,就只會在最后一個階段對智能體進行訓練,這就會導致災難性遺忘。

并且,這種現象廣泛適用。

上面這張圖中,每柱對應一個不同的游戲,其高度代表Rainbow Memento智能體相對于Rainbow基線增長的百分比。

在整個ALE中,Rainbow Memento智能體在75%的游戲中表現有所提升,其中性能提升的中位數是25%。

這項研究證明,在深度強化學習中,單個游戲中的AI無法持續學習,是因為存在「災難性干擾」。

并且,這一發現還表明,先前對于「任務」構成的理解可能是存在誤導的。研究人員認為,理清這些問題,將對強化學習的許多基礎問題產生深遠影響。

傳送門

論文地址:

https://arxiv.org/abs/2002.12499

GitHub:

https://github.com/google-research/google-research/tree/master/memento

作者系網易新聞·網易號“各有態度”簽約作者

— 完 —

原標題:《谷歌大腦新研究:單一任務的強化學習遇瓶頸?是「災難性遺忘」的鍋!圖靈獎得主Bengio參與》

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            百家乐官网娱乐人物| 百家乐官网筹码防伪| 真钱的棋牌游戏网站| 百家乐官网透明牌靴| 威尼斯人娱乐城网址多少| 一直对百家乐官网很感兴趣.zibo太阳城娱乐城| 百家乐正式版| 百家乐官网翻天qvod| 博彩网百家乐中和局| 沈阳盛京棋牌官网| 百家乐公式书| 澳门百家乐官网技巧皇冠网| 大赢家百家乐的玩法技巧和规则| 亚洲顶级赌场 网投领导者| 大中华百家乐官网的玩法技巧和规则 | 竞咪百家乐官网的玩法技巧和规则| 怎样打百家乐的玩法技巧和规则 | 四川省| 线上百家乐官网手机版| 巴登娱乐城信誉怎么样| 赌场百家乐投注公式| 浏阳市| 新百家乐.百万筹码| 巴彦县| 百家乐投注心态| 真人百家乐官网蓝盾赌场娱乐网规则 | 百家乐存1000送| 欢乐博百家乐官网娱乐城| 古田县| 青鹏棋牌官网| 百家乐官网视频游戏帐号| 百家乐筹码防伪套装| 百家乐官网建材| 缅甸百家乐官网赌博现场下载| 澳门百家乐常赢打法| 揭秘百家乐官网百分之50| 真人游戏排行榜| 百家乐现金网信誉排名| 百家乐园鼎盛娱乐场| 百家乐家乐娱乐城| 威尼斯人娱乐诚|