ロボットナビゲーションにおける継続学習
ロボット学習における方策適応の改善
本プロジェクトでは、限られたテレオペレーションデータを用いてロボットの制御方策の適応を改善する手法を検討します。具体的には、ベースモデル π0 が基盤モデル(foundation model)またはターゲットロボットのデータで学習された性能が不十分なモデルであるという仮定のもと、提案手法の効果を分析します。
人間によるテレオペレーション時間が固定されているという制約のもとで適応性能を評価し、実用的な制限内で方策の品質向上が達成されることを確認します。
主張の要点
- ベースモデル π0 は、基盤モデルまたはターゲットロボットのデータで学習された性能が不十分なモデルであると仮定する
- テレオペレーション時間が固定されているという制約のもとで、
- 提案手法は方策の適応性能を改善し、得られた方策 π∗ をターゲットロボットにとって最適な方策により近づけることができる