NeurIPS 2019強化學習賽事：從肌肉控制仿生人百度PARL再奪桂冠

來源：中國電商物流網發布時間：2019-11-5 8:51

　　機器學習領域頂級會議 NeurIPS 2019 將于 12 月 8 日-14 日在加拿大溫哥華開幕。不久之前，大會公布了論文評審結果，今年大會共收到 6743 份有效論文，接收了1428篇，錄取率為21.17%。

　　作為國內最早投身 AI 領域的科技巨頭，百度今年有多篇論文入選。

　　此外，會議主辦的 NeurIPS 2019: Learn to Move 強化學習賽事落下帷幕，百度繼 2018 年奪得冠軍后再度蟬聯冠軍。本次比賽的難度非常大，在參賽的近 300 支隊伍中，僅有 3 支隊伍完成了最后挑戰。百度基于飛槳的強化學習框架 PARL 不僅成功完成挑戰，還大幅領先第二名 143 分。顯而易見，百度在強化學習領域占據了明顯的優勢，冠軍含金量頗高。

　　強化學習框架 PARL：https://github.com/PaddlePaddle/PARL

近年，隨著機械設計以及動力學控制技術的發展，仿生機器人正取得不斷的進步。比如近來波士頓動力(Boston Dynamics)發布的機器人會跑步，會拉貨車，甚至還會“反擊”人類，而控制這些機器人的主要節點是動力學關節。

　　相比于鋼鐵造就、機械控制的機器人，人體的復雜程度有過之而無不及。探索和理解人體自身是人類的終極目標之一。人體內有206塊骨骼、639塊肌肉，正是對這些骨骼和肌肉的精細控制，造就了人類出色靈活的運動能力和平衡保持能力。近年來有很多研究希望了解人體的運動機制，甚至端到端地從肌肉層面直接學習控制仿生人體。針對人體控制這樣復雜的場景，強化學習(Reinforcement Learning)是重要的研究手段。

　　強化學習是機器學習的范式和方法論之一，用于描述和解決智能體(agent)在與環境的交互過程中，通過學習策略以達成回報最大化或實現特定目標的問題。但直接使用強化學習，仍然非常困難。其中一個原因在于，人體控制的解空間實在太大了!高達兩百多維度的連續狀態空間，非常復雜，一般的強化學習算法完全無法奏效。正因為如此，誕生了很多以控制人體為目標的研究和比賽，吸引著各路高手一決雌雄。

　　NeurIPS: Learn to Move 強化學習賽事的誕生正意在于此。該賽事由斯坦福仿生動力學實驗室舉辦，比賽采用斯坦福國家醫學康復研究中心研發的 Opensim 人體骨骼高仿模型。參賽者需要根據該模型中多達 100 多維以上的狀態描述特征，來決定模型肌肉的信號，控制模型的肌體行走。

　　該挑戰賽創辦于 2017 年，今年是第三年舉辦。2017 年第一次挑戰賽上，比賽規則圍繞誰能讓模型肌體行走速度最快，2018 年賽事將整個模型運動控制從 2D 改為 3D 外，還引入帶有假肢的模型，而今年比賽難度再次提升。

　　據悉，賽事分為2 輪，首輪主要是增加了實時的速度變換要求，而真正的挑戰集中在第 2 輪，參賽選手僅有短短2周時間來完成任務。這一輪不僅要求實時切換速度，而且是360° 范圍調整行走方向，更增加了模型控制難度。由于實際狀態空間和動作空間稠密并且非常大，導致基于強化學習的算法無法準確把握模型肌體的行走姿勢。

　　盡管每年的賽事難度都在增加，但今年的百度仍取得了優異成績。據了解，在百度的最優解決方案中，甚至出現了一些普通人也難以做到的動作，如從立定狀態突然平順地向后轉向并且同時以要求的速度行走，而且這個過程需要全程保持穩定不會摔倒。

　　百度能夠在此次賽事中取得優異表現、蟬聯冠軍的主要因素是在于訓練機制、通用算法庫、迭代效率三個方面長足的技術積累。

　　首先，百度構建了「課程學習」的訓練機制，先從高速奔跑中學習姿態，再逐步降速提升行走穩定性，從而學到了一個和人類極為相似的行走姿態。根據歷屆參賽選手提供的行走視頻來看，百度通過這種方法學習出來的行走姿勢是最為自然的，接近真實人類行走姿勢的。這個行走姿勢不僅可以維持人體的平衡性，還可以靈活地應付各種速度大小、角度的變化。

　　其次，百度采用了自主研發的強化學習框架 PARL。通過復用通用算法庫里面已經實現好的算法，參賽選手得以很快地在不同算法間切換，保持了高效的迭代頻率。PARL 的算法庫涵蓋了經典的連續控制算法 Reinforce，以及主流的 DDPG/PPO 等算法，到最前沿的 model-based 等相關算法。盡管算法庫包含了各種類型的復雜算法，但是其接口是相當簡單的，基本上是 import 即可用的方式。

　　最后，百度基于PARL提供的高效靈活的并行化訓練能力進行強化學習訓練，使得訓練效率得以數百倍地提升。PARL 的并行接口的設計思想是用 python 的多線程代碼實現真正意義上的高并發，參賽選手只需要寫多線程級別的代碼，然后加上PARL的并行修飾符就可以調度不同機器的計算資源，達到高并發的性能。

　　而此次獲得冠軍的百度「PARL」，名字來源于 PaddlePaddle Reinforcement Learning，是基于百度飛槳(PaddlePaddle)研發的靈活高效的強化學習框架。PARL 應用了百度多年來在強化學習領域的技術深耕和產品應用經驗，具有更高的可擴展性、可復現性和可復用性，強大的大規模并行化支持能力。開發者可以通過 PARL 用數行代碼定制自己的模型，一個修飾符就能實現并行。此外，PARL 代碼風格統一，包含了多個入門級別的強化學習算法，對初學者相當友好。

　　事實上百度對強化學習的關注始于 2012 年，當時的百度就已經將多臂老虎機 (Multi-armed bandit) 的研究結果應用在百度搜索和推薦等產品和功能上，此后，強化學習相繼落地在了度秘，鳳巢，新聞 Feed 推薦以及越來越多的相關產品中。

　　今年 1 月，百度正式發布了深度強化學習框架 PARL，更強勁的強化學習能力也正在通過飛槳平臺賦能給更多開發者。

特別提醒：本網內容轉載自其他媒體，目的在于傳遞更多信息，并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

上一篇：小米再度投資芯片企業

下一篇：超圖發布全面融入AI技術新產品，GIS將應用于多個重要領域

相關資訊