Combining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learningを読んだ

ICML2017に採択されたCombining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learningを読んで、第4回:「NIPS+読み会・関西」で紹介しました。

概要としては、強化学習においてはモデルに仮定をかけたmodel-based、モデルに仮定をかけないmodel-free、2種類のアプローチが存在します。それぞれは、データ効率性、様々な環境に対する適用性に対して長短があります。今回の研究では、ポリシーに制約を加えた上で、それら2種類のアプローチに属するアルゴリズムを統合し、高いデータ効率性と様々な環境に対する高い適用性を同時に達成しました。適用性としてはmodel-freeより高い性能を達成した上で、データ効率性はmodel-basedに匹敵することが示されました。また、統合アルゴリズムをGuided Policy Searchのガイドとして用いることによって、任意のポリシーのモデリングが行えることも示したそうです。 更に、シミュレーションに留まらず、実世界でのロボット実験でも高い性能を達成したようです。

紹介に用いたスライドは以下においておきます。


また、実験結果のビデオは以下の通りです。

0 件のコメント :

コメントを投稿