- +1
機器人制造融合強化學習,更健壯更強大
文/陳根
雙足機器人曾是科幻文學和電影的主題。在非理想地形上,早期雙足機器人的形象通常是移動緩慢且笨拙的。但是隨著科技的發展,它們開始能夠進行更快、更有效地移動。現在,有些雙足機器人已經可以適應環境和外部刺激。
雖然雙足機器人發展迅速,但是其在建模以及穩定性方面依然有很大的進步空間。為此,研究人員嘗試通過強化學習來訓練雙足機器人并獲得了成功,這在很大程度地增強了機器人的魯棒性。

事實上,在傳統機器人研究中,往往需要花費很多時間和技巧給機器人建模,尤其對于雙足機器人而言,一旦自身性質和周圍環境發生改變,如電機壞了、地面摩擦力改變,模型就有可能就會失效。
此外,對于雙足式的機器人系統而言,其非線性非常高,并且由于是高自由度的混合系統,每一次踏步都會受到地面沖擊力,因此,很難獲得精確模型。
要想做一個實時控制算法,就要使用相對完整的動力學模型。但是,即便具備好的模型,部署在非常高自由度的非線性系統上,也很難做到較快的實時計算。因此,使用傳統方法時,很多學者都會做出權衡取舍,比如使用簡化的模型來做算法控制。
然而,這樣做的弊端也很明顯:一方面,其無法完整利用動力學模型,從而不能充分發揮機器人系統的靈敏性;另一方面,基于模型的算法,一旦超過其穩定區域,算法很容易就會崩潰。所以,使用傳統方法制造出來的機器人在穩定性方面往往有所欠缺。
針對于此,研究人員用強化學習的方法來訓練機器人,通過相對完整的機器人動力系統,在仿真環境反復嘗試后,機器人獲得大量和環境交互的數據,從而學會用穩定步態行走。
研究人員主要使用Python對機器人進行編程,由于是雙足機器人,算法控制上會更難。但用強化學習的方法訓練,研究出的機器人步態算法相比傳統基于模型的算法,性能顯著提升,帶來的魯棒性也更強。
該機器人不僅能像人類一樣前后左右地走,還能蹲著走,也能承受意料之外的負載,更能從強行推動造成的失穩狀態中恢復過來。在測試期間,其右腿的兩個電機損壞了,但它仍能調整其步行策略去適應。
魯棒性增強,這也意味著,相比其他機器人,該機器人擁有更大的應用空間。未來,在發生地震時,其有望能在塌房中做救援工作;或者在快遞業務中,可以充當快遞員的角色。
目前,相關論文《雙足機器人魯棒參數化運動控制的強化學習》(Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots),已被機器人國際學術頂會 ICRA 收錄,將有望促進雙足機器人的進一步發展。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司