強化学習の基礎・発展と機械・ロボット制御への応用

■　講師

国立情報学研究所　情報学プリンシプル研究系　助教　博士（工学）　小林泰介氏

■　開催要領

日　時	：	【アーカイブ（録画）配信】２０２５年１１月２０日まで受付（視聴期間：１１月２０日～１１月３０日まで）　（※２０２５年１１月１１日（火） Live配信の録画配信です）
会　場	：	ZOOMを利用したLive配信またはアーカイブ配信　※会場での講義は行いませんセミナーの接続確認・受講手順は「こちら」をご確認下さい。
聴講料	：	1名につき５５，０００円（消費税込・資料付き）〔１社２名以上同時申込の場合１名につき４９，５００円（税込）〕〔大学、公的機関、医療機関の方には割引制度があります。詳しくは上部の「アカデミック価格」をご覧下さい〕

■　プログラム

【講演ポイント】
　これまでのAIは用意された膨大なデータセットからデータ間に潜む関係性を見出すことが中心的な役割でした．これに対して，最近はロボットやゲームAIなどのエージェントが自ら試行錯誤して得た経験データに基づいて学習して，目的を達成できる行動のルール（方策）を獲得する強化学習への注目が高まっています．
　これは明示的な正解データを用意せずとも，望ましい結果を定量的に表すことでユーザーが思いもしない優れた方策を見出す事例が数多く報告され，家電からロボットまで幅広い分野で期待が高まっています．
　本講座では，このような期待の技術である強化学習について，これまでのAIとは異なる学習方法が何故必要なのか？という根幹から，学習法の基礎を概説します．また，ロボットなどの機械制御への応用が特に期待される最新の強化学習アルゴリズムについてや，応用の際に悩みの種となりやすい報酬の設計指針や対処法についても実際の応用事例と合わせて紹介します．

【プログラム】
１．強化学習とは
　1.1 強化学習の目的
　1.2 マルコフ決定過程
　1.3 学習すべき要素
２．学習アルゴリズムの基礎
　2.1 価値関数の学習
　2.2 方策関数の学習
　2.3 深層強化学習でのテクニック
３．最新のActor-Criticアルゴリズム
　3.1 改善へのエッセンス
　3.2 方策更新の制限：TRPO/PPO
　3.3 直接的な方策勾配の計算：DDPG/TD3
　3.4 方策エントロピーの最大化：SQL/SAC
４．モデルベース強化学習
　4.1 世界モデルの学習
　4.2 世界モデルの活用法
　4.3 既存モデルの活用法
５．報酬設計の課題と対策
　5.1 疎な報酬
　5.2 多目的性
　5.3 エキスパートの模倣
　5.4 学習難易度の調整

【質疑応答】