【講演ポイント】
これまでのAIは用意された膨大なデータセットからデータ間に潜む関係性を見出すことが中心的な役割でした.これに対して,最近はロボットやゲームAIなどのエージェントが自ら試行錯誤して得た経験データに基づいて学習して,目的を達成できる行動のルール(方策)を獲得する強化学習への注目が高まっています.
これは明示的な正解データを用意せずとも,望ましい結果を定量的に表すことでユーザーが思いもしない優れた方策を見出す事例が数多く報告され,家電からロボットまで幅広い分野で期待が高まっています.
本講座では,このような期待の技術である強化学習について,これまでのAIとは異なる学習方法が何故必要なのか?という根幹から,学習法の基礎を概説します.また,ロボットなどの機械制御への応用が特に期待される最新の強化学習アルゴリズムについてや,応用の際に悩みの種となりやすい 報酬の設計指針や対処法についても実際の応用事例と合わせて紹介します.
【プログラム】
1.強化学習とは
1.1 強化学習の目的
1.2 マルコフ決定過程
1.3 学習すべき要素
2.学習アルゴリズムの基礎
2.1 価値関数の学習
2.2 方策関数の学習
2.3 深層強化学習でのテクニック
3.最新のActor-Criticアルゴリズム
3.1 改善へのエッセンス
3.2 方策更新の制限:TRPO/PPO
3.3 直接的な方策勾配の計算:DDPG/TD3
3.4 方策エントロピーの最大化:SQL/SAC
4.モデルベース強化学習
4.1 世界モデルの学習
4.2 世界モデルの活用法
4.3 既存モデルの活用法
5.報酬設計の課題と対策
5.1 疎な報酬
5.2 多目的性
5.3 エキスパートの模倣
5.4 学習難易度の調整
【質疑応答】
|