多自由度車いす型ロボットの不整地走行獲得に関する研究
発表日 2019 年 7 月 4 日
60200108 古田智樹(指導教員:中村 恭之)
中嶋先生の質問
学習中の報酬の変化及び学習の二重化か可能かどうか
➢ 調べてみた結果そのようなものは見つけることができませんでした。
学生の質問
1. なぜ強化学習なのか、解決しようとしている問題、効率の良い移動とはどの
ようなものか
➢ 強化学習とは価値を最大化するように学習を行う手法であり、効率の良い
移動を獲得するために強化学習を用いている。
2. 困難と思ったところ
➢ DNN の入力、出力次元の決定・学習における各種パラメータの設定
3. 報酬設定した根拠
➢ 現在は目標到達を第一に考えているため、速度を重視した報酬設定をして
いる。
4. 対象とする段差の高さ
➢ 最終目標は 0.17m,現在は 0.1m で行っている。
5. 段差が変わった場合同じ学習で段差を超えられるのか
评论0