機器人制造融合強化學習，更健壯更強大

2021-04-14 18:37

來源：澎湃新聞·澎湃號·湃客

文/陳根

雙足機器人曾是科幻文學和電影的主題。在非理想地形上，早期雙足機器人的形象通常是移動緩慢且笨拙的。但是隨著科技的發展，它們開始能夠進行更快、更有效地移動。現在，有些雙足機器人已經可以適應環境和外部刺激。

雖然雙足機器人發展迅速，但是其在建模以及穩定性方面依然有很大的進步空間。為此，研究人員嘗試通過強化學習來訓練雙足機器人并獲得了成功，這在很大程度地增強了機器人的魯棒性。

事實上，在傳統機器人研究中，往往需要花費很多時間和技巧給機器人建模，尤其對于雙足機器人而言，一旦自身性質和周圍環境發生改變，如電機壞了、地面摩擦力改變，模型就有可能就會失效。

此外，對于雙足式的機器人系統而言，其非線性非常高，并且由于是高自由度的混合系統，每一次踏步都會受到地面沖擊力，因此，很難獲得精確模型。

要想做一個實時控制算法，就要使用相對完整的動力學模型。但是，即便具備好的模型，部署在非常高自由度的非線性系統上，也很難做到較快的實時計算。因此，使用傳統方法時，很多學者都會做出權衡取舍，比如使用簡化的模型來做算法控制。

然而，這樣做的弊端也很明顯：一方面，其無法完整利用動力學模型，從而不能充分發揮機器人系統的靈敏性；另一方面，基于模型的算法，一旦超過其穩定區域，算法很容易就會崩潰。所以，使用傳統方法制造出來的機器人在穩定性方面往往有所欠缺。

針對于此，研究人員用強化學習的方法來訓練機器人，通過相對完整的機器人動力系統，在仿真環境反復嘗試后，機器人獲得大量和環境交互的數據，從而學會用穩定步態行走。

研究人員主要使用Python對機器人進行編程，由于是雙足機器人，算法控制上會更難。但用強化學習的方法訓練，研究出的機器人步態算法相比傳統基于模型的算法，性能顯著提升，帶來的魯棒性也更強。

該機器人不僅能像人類一樣前后左右地走，還能蹲著走，也能承受意料之外的負載，更能從強行推動造成的失穩狀態中恢復過來。在測試期間，其右腿的兩個電機損壞了，但它仍能調整其步行策略去適應。

魯棒性增強，這也意味著，相比其他機器人，該機器人擁有更大的應用空間。未來，在發生地震時，其有望能在塌房中做救援工作；或者在快遞業務中，可以充當快遞員的角色。

目前，相關論文《雙足機器人魯棒參數化運動控制的強化學習》（Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots），已被機器人國際學術頂會 ICRA 收錄，將有望促進雙足機器人的進一步發展。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#機器人 #強化學習 #科技