実世界マルチエージェントの手本を用いた強化学習における適応的な行動の活用
- https://www.jstage.jst.go.jp/article/pjsai/JSAI2024/0/JSAI2024_1E5GS504/_article/-char/ja
- https://www.jstage.jst.go.jp/article/pjsai/JSAI2024/0/JSAI2024_1E5GS504/_pdf/-char/en
序論
本研究では、実世界のマルチエージェントの手本を用いた強化学習における適応的な行動の活用について探求します。特に、追跡逃避課題やサッカーなどの実世界のシナリオにおけるドメイン適応を目指します。
研究背景
強化学習は、エージェントが環境との相互作用を通じて最適な行動方針を学習する手法です。しかし、実世界のデータと仮想環境の間にはドメインギャップが存在し、これが学習の障害となることがあります。
研究目的
この研究の目的は、実世界のデータから学習した行動を強化学習に適応させることで、ドメイン適応問題を解決することです。具体的には、手本の行動を基に強化学習モデルを構築し、未知の環境でも高い性能を発揮することを目指します。
方法
データセット
- ソースデータ: 実世界のマルチエージェントデータを使用。
- ターゲットデータ: 強化学習用にシミュレートされたデータを使用。
デバイアス手法
- 教師あり学習: 手本データを用いた事前学習。
- 強化学習: 事前学習されたモデルを基に強化学習を実施。
可視化手法
- 動的時間伸縮法(DTW): 手本と強化学習の軌跡間の距離を最小化する手法を用いて行動の適応を評価。
結果
実験では、追跡逃避課題とサッカー課題の両方において、提案手法がベースライン手法と比較して高い性能を示しました。特に、手本行動を適応させることで、強化学習モデルの再現性と汎化性能が向上しました。
考察
提案手法は、実世界の複雑な環境に対しても適応可能であり、強化学習のドメイン適応問題を効果的に解決する可能性があります。
結論
本研究は、実世界のマルチエージェントシナリオにおけるドメイン適応のための新しい強化学習手法を提案しました。この手法は、実世界データと仮想環境の間のギャップを埋め、より現実的で高性能な強化学習モデルの構築に寄与するものです。
謝辞
本研究は、科研費 21H05300と 23H03282、及び JSTさきがけ JPMJPR20CAの支援により行われました。