强化学习模仿学习于robot.pdf_模仿习算法资源-CSDN文库

版权申诉

36 浏览量 2023-03-03 22:56:37 上传评论收藏 693KB PDF 举报

强化学习模仿学习于robot 写在前⾯：分享知识是再好不过的事情。这篇⽂章主要是总结⾃⼰最近看的⼀些⽂章以及相关知识。⾃⼰在暑假实习的时候学习的就是在物理仿真平台上做robot的强化学习，未来读PhD的时候也被⽼师继续分配到了这个⽅向，哈哈。可能要⼀直从⼊门到⼊⼟了，趁着最近写research proposal的时候，将最近的理解记录⼀下。鉴于笔者知识⽔平有限，若有不妥当之处，还请指出。摘要：摘要：robot 强化学习强化学习模仿学习模仿学习介绍介绍从Google的alphago以绝对优势接连战胜⼈类围棋中的佼佼者(李世⽯, 柯洁)之后，这总结果当然是震撼的，从此⼈⼯智能声名⼤噪。但是纵使⽬前能使机器智⼒超群，围棋上的造诣⽆⼈能⽐，但是它还是连⼀颗棋⼦都拿不起来。⼤家总在畅想未来各种家居机器⼈会成为我们得⼒的助⼿，洗碗做饭洗⾐服，任劳任怨不叫苦。当然理想还是要有的，只不过实现起来路还是很长的。现在让机器⼈学会倒杯⽔都是很困难的。。。早在1921年karel Capek就为我们第⼀次描述了⼀个机器⼈应该长什么样⼦：it should look like a human being。⾃从那时起，⼩说家们开始将这⼀想法发扬光⼤，在各式各样的科幻⼩说中，很多超过⼈的智能机器层出不穷。⽽现实呢，研究员们还在为实现最简单的可称得上"智能"的机器⽽夜以继⽇（artist的创作⼒真是远超scientist）。在做⼯程与研究的⼈眼中，类⼈的机器⼈就是合适材料组装的，质量尽可能轻的，有各种各样的motors还有各种各样的传感器的集合。但是在这样的基础上让机器学会推理（reasoning）是很困难的。⽬前为⽌，机器⼈也就只能重复性的完成那些被⼈为设计好，写在程序中的任务。为了克服这种需要⼈为给每个动作编程的繁琐步骤，我们迫切的需要⼀种新的算法。然后强化学习（Reinforcement Learning）被拿来⽤了。 Reinforcement Learning ⼀张图简单介绍下强化学习，我们前⾯提到的robot就是图中的智能体agent。每个agent都是肩负⼀个使命的，并且要为这个使命在环境（environment）中不断探索（actions），每探索⼀次都会到达⼀个新的状态（state）也会得到环境对这个action的反馈（reward）。往往我们的reward就是根据target来设定的，所以要实现的⽬标也等价于获得最⼤的累计回报。举个简单的例⼦（例⼦才是最能说明问题的），flabbybird 相信⼤部分⼈都玩过，没玩过可以玩⼀玩（强迫症绝对停不下来。。。）。这个游戏⾥⾯呢，⼩鸟就是我们的agent，环境就是各种各样的⽔管，state就是对环境的观测值（包括鸟的速度啊，⽔管距离啊等等），我们的⽬标呢就是穿越尽可能多的⽔管，能采取的action就是点⼀下或者不点，每穿越⼀个⽔管就会得到⼀个值是1的reward，若是不⼩⼼撞到⽔管那就得到-1的reward然后游戏结束。这个例⼦中动作空间是离散的也⽐较简单，⽤的就是DQN的算法，是很不错的强化学习的⼊门例⼦，有兴趣可以去玩⼀玩。关于强化学各种各样的算法，诸如Q-learning，SARSA，policy gradient等，我就不在这⾥列公式了，看见公式我也晕，讲的也可能没有⼈家好，建议有兴趣的⼈可以去看下CS294课程，还有这⾥有⼀些博客链接：做了基本的了解之后，我们⾔归正传，强化学习真的在近些年来被证明是做motion control 任务的⾮常有效的⽅法。基于各种各样的仿真平台⽐如gym，dart，以及很多优秀的物理模拟⼯具 mujoco，bullet。让研究者们可以⾮常⽅便的搭建⾃⼰的agent，从⼈，动物甚⾄到⾃⾏车，再者还有集成各种强化学习算法的平台（如baseline， tensorflow agent）让研究者可以⾮常⽅便的调⽤或者编写⾃⼰的强化学习算法。所以在图形学领域，这个⽅向算是成为了⼀个热点吧，⼯作⽐较突出的，最敬佩的应该是Berkeley的⼤神博⼠⽣ Xuebin Peng 吧。他实现了⼀些列关于强化学习⽤于模拟智能体的⼯作，⽐如⼀维和三维的障碍跨越，在最近的⽂章⾥还实现了学杂技，也是让⼈眼前⼀亮了。所以⼤家可⼀看到强化学习在这个⽅向上的潜⼒与效果。（⽆脑宣传⼀波，暑假张⽼师提的idea做⾃⾏车的训练也是⾮常的 exciting）。好，吹完了开始⿊了。强化学习在做motion control是极好的，但是往往⼀开始产⽣的都是⼀些⾮常滑稽的，不对称的动作，为了解决这个问题，研究者们就开始将⽬光投到cost function上去，⽐如Wenhao Yu（）他们的设计了⼀种新颖的⽅式计算动作的协调对称

资源推荐

资源详情

资源评论