强化学习模仿学习于robot.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
强化学习模仿学习于robot 写在前⾯: 分享知识是再好不过的事情。这篇⽂章主要是总结⾃⼰最近看的⼀些⽂章以及相关知识。⾃⼰在暑假实习的时候学习的就 是在物理仿真平台上做robot的强化学习,未来读PhD的时候也被⽼师继续分配到了这个⽅向,哈哈。可能要⼀直从⼊门到⼊⼟了,趁 着最近写research proposal的时候,将最近的理解记录⼀下。鉴于笔者知识⽔平有限,若有不妥当之处,还请指出。 摘要: 摘要:robot 强化学习 强化学习 模仿学习 模仿学习 介绍 介绍 从Google的alphago以绝对优势接连战胜⼈类围棋中的佼佼者(李世⽯, 柯洁)之后,这总结果当然是震撼的,从此⼈⼯智能声名⼤噪。但是 纵使⽬前能使机器智⼒超群,围棋上的造诣⽆⼈能⽐,但是它还是连⼀颗棋⼦都拿不起来。⼤家总在畅想未来各种家居机器⼈会成为我们得 ⼒的助⼿,洗碗做饭洗⾐服,任劳任怨不叫苦。当然理想还是要有的,只不过实现起来路还是很长的。现在让机器⼈学会倒杯⽔都是很困难 的。。。 早在1921年karel Capek就为我们第⼀次描述了⼀个机器⼈应该长什么样⼦:it should look like a human being。⾃从那时起,⼩说家 们开始将这⼀想法发扬光⼤,在各式各样的科幻⼩说中,很多超过⼈的智能机器层出不穷。⽽现实呢,研究员们还在为实现最简单的可称得 上"智能"的机器⽽夜以继⽇(artist的创作⼒真是远超scientist)。在做⼯程与研究的⼈眼中,类⼈的机器⼈就是合适材料组装的,质量 尽可能轻的,有各种各样的motors还有各种各样的传感器的集合。但是在这样的基础上让机器学会推理(reasoning)是很困难的。⽬前 为⽌,机器⼈也就只能重复性的完成那些被⼈为设计好,写在程序中的任务。为了克服这种需要⼈为给每个动作编程的繁琐步骤,我们迫切 的需要⼀种新的算法。然后强化学习(Reinforcement Learning)被拿来⽤了。 Reinforcement Learning ⼀张图简单介绍下强化学习,我们前⾯提到的robot就是图中的智能体agent。每个agent都是肩负⼀个使命的,并且要为这个使命在环境 (environment)中不断探索(actions),每探索⼀次都会到达⼀个新的状态(state)也会得到环境对这个action的反馈(reward)。 往往我们的reward就是根据target来设定的,所以要实现的⽬标也等价于获得最⼤的累计回报。举个简单的例⼦(例⼦才是最能说明问题 的),flabbybird 相信⼤部分⼈都玩过,没玩过可以玩⼀玩(强迫症绝对停不下来。。。)。 这个游戏⾥⾯呢,⼩鸟就是我们的agent,环境就是各种各样的⽔管,state就是对环境的观测值(包括鸟的速度啊,⽔管距离啊等等),我 们的⽬标呢就是穿越尽可能多的⽔管,能采取的action就是点⼀下或者不点,每穿越⼀个⽔管就会得到⼀个值是1的reward,若是不⼩⼼撞 到⽔管那就得到-1的reward然后游戏结束。这个例⼦中动作空间是离散的也⽐较简单,⽤的就是DQN的算法,是很不错的强化学习的⼊门 例⼦,有兴趣可以去玩⼀玩。 关于强化学各种各样的算法,诸如Q-learning,SARSA,policy gradient等,我就不在这⾥列公式了,看见公式我也晕,讲的也可能没有 ⼈家好,建议有兴趣的⼈可以去看下CS294课程,还有这⾥有⼀些博客链接: 做了基本的了解之后,我们⾔归正传,强化学习真的在近些年来被证明是做motion control 任务的⾮常有效的⽅法。基于各种各样的仿真 平台⽐如gym,dart,以及很多优秀的物理模拟⼯具 mujoco,bullet。让研究者们可以⾮常⽅便的搭建⾃⼰的agent,从⼈,动物甚⾄到 ⾃⾏车,再者还有集成各种强化学习算法的平台(如baseline, tensorflow agent)让研究者可以⾮常⽅便的调⽤或者编写⾃⼰的强化学 习算法。所以在图形学领域,这个⽅向算是成为了⼀个热点吧,⼯作⽐较突出的,最敬佩的应该是Berkeley的⼤神博⼠⽣ Xuebin Peng 吧。 他实现了⼀些列关于强化学习⽤于模拟智能体的⼯作,⽐如⼀维和三维的障碍跨越,在最近的⽂章⾥还实现了学杂技,也是让⼈眼前⼀亮 了。所以⼤家可⼀看到强化学习在这个⽅向上的潜⼒与效果。(⽆脑宣传⼀波,暑假张⽼师 提的idea做⾃⾏车的训练也是⾮常的 exciting)。 好,吹完了开始⿊了。 强化学习在做motion control是极好的,但是往往⼀开始产⽣的都是⼀些⾮常滑稽的,不对称的动作,为了解决这个问题,研究者们就开始 将⽬光投到cost function上去,⽐如Wenhao Yu()他们的设计了⼀种新颖的⽅式计算动作的协调对称
- 粉丝: 171
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助