热搜:
 
当前位置: 首页 » 资讯 » 正文

AI中热门的内容:深度强化学习

放大字体  缩小字体 发布日期:2018-04-09  来源:seo技术培训  浏览次数:1
核心提示:深度强化学习(DRL)是人工智能研究领域的一个令人兴奋的部分,可以应用于各种问题的解决。 有些人认为DRL是人工智能或AGI的一条
 深度强化学习(DRL)是人工智能研究领域的一个令人兴奋的部分,可以应用于各种问题的解决。 有些人认为DRL是人工智能或AGI的一条路径,因为它通过探索和接收来自环境的反馈来反映人类学习。 DRL智能体最近取得了视频游戏玩家的成功,以及众所周知的DeepMind AlphaGo的胜利,双脚智能体学习走向模拟的演示,都促成了该领域的普遍热情。

与有监督的机器学习不同,该机器学习基于已知正确答案的训练模型,在强化学习中,研究人员通过让智能体与环境的交互来训练模型。 当智能体的行为产生期望的结果时,它会得到积极的反馈。 例如,智能体获得得分或赢得比赛的奖励。 简而言之,研究人员会强化智能体的良好行为。

AI中热门的内容:深度强化学习

将DRL应用于非平凡问题的关键挑战之一是构建奖励函数,鼓励所期望的行为而不产生不良副作用。当你弄错了,会发生各种不好的事情,包括作弊行为。(想想通过一些视觉上的房间清洁度来奖励机器人女佣,只是教导机器人扫除家具下面的污垢。)

这里值得注意的是,虽然深层强化学习 - “深层”指的是底层模型是深层神经网络这一事实,但仍然是一个相对较新的领域,强化学习自20世纪70年代以来一直存在,取决于如何你算。正如Andrej Karpathy在其2016年博客文章中指出的那样,关键的DRL研究(如AlphaGo论文和Atari Deep Q-Learning论文)基于已经存在一段时间的算法,但深入学习替代其他方法近似函数。他们使用深度学习当然是由于我们在过去20多年中看到的廉价计算能力的爆炸式增长。

DRL的承诺以及谷歌2014年以5亿美元收购DeepMind之后,导致了一些希望利用这项技术创业的公司。

随着对DRL兴趣的增加,也能看到了创建用于培训DRL智能体的新开源工具包和环境。 这些框架中的大多数基本上都是专用仿真工具或与之相关的接口。

OpenAI健身房

OpenAI Gym是用于开发和比较强化学习模型的流行工具包。它的模拟器界面支持各种环境,包括经典的Atari游戏以及机器人和物理模拟器,如MuJoCo和DARPA资助的Gazebo。像其他DRL工具包一样,它提供的API可将观察结果和奖励反馈给代理。

DeepMind实验室

DeepMind Lab是基于Quake III第一人称射击游戏的3D学习环境,为学习代理提供导航和解谜解决任务。 DeepMind最近添加了新级别的DMLab-30,并推出了新的Impala分布式代理培训体系结构。

Psychlab

另一个DeepMind工具包,今年早些时候开源,Psychlab扩展了DeepMind Lab以支持认知心理学实验,例如为一个特定目标搜索一系列物品或检测一系列物品的变化。然后研究人员可以比较人类和AI代理在这些任务上的表现。

House3D

加州大学伯克利分校和Facebook AI研究人员之间的合作,House3D提供超过45,000个模拟室内场景,并提供逼真的房间和家具布局。介绍House3D的论文所涉及的主要任务是“概念驱动导航”,例如培训智能体导航到房间,只给予像“餐厅”这样的高级描述符。

Unity机器学习智能体

满山红seo培训:www.seofuwu.com

在AI和ML Danny Lange副总裁的领导下,游戏引擎开发者Unity正在努力将尖端的AI技术融入其平台。 2017年9月发布的Unity机器学习智能体是一款开放源代码的Unity插件,可让平台上运行的游戏和模拟作为培训智能代理的环境。

射线

虽然这里列出的其他工具专注于DRL培训环境,但Ray更多地关注DRL的基础设施规模。由Ion Stoica及其团队在Berkeley RISELab开发,Ray是一个用于在集群和大型多核计算机上高效运行Python代码的框架,专门针对提供用于强化学习的低延迟分布式执行框架。

所有这些工具和平台的出现将使DRL更易于开发人员和研究人员使用。不过,他们需要获得所有的帮助,因为深入的强化学习可能难以付诸实践。 Google工程师Alex Irpan最近的一篇批评性文章“深度强化学习目前还行不通”解释了为什么。 Irpan引用了DRL所需的大量数据,事实上DRL的大多数方法都没有利用关于所涉及的系统和环境的先前理论,以及前述所提出的有效奖励功能的困难等问题。

我认为,从研究和应用的角度来看,深入强化学习仍然是人工智能领域的一个热门话题。它在处理复杂的,多方面的,连续的决策问题方面显示出巨大的前景,这使得它不仅适用于工业系统和游戏,而且适用于市场营销,广告,金融,教育甚至数据科学领域。

 
 
[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]

 

 
推荐图文
推荐资讯
点击排行
 
网站首页 | 关于我们 | 联系方式 | 使用协议 | 版权隐私