2000亿次开放学习后 DeepMind的智能体成精了

Android社区 收藏文章

你可能会说这只是“瞎猫撞死耗子”罢了,但多次实验发现,该智能体可以复现该方法的!

而且它还会不止一种方法,“我不上去,你下来”——直接借助板子把目标扒拉下来了!

这也行?

而这些成精了的智能体来自DeepMind。

现在,为了让AI更加多才多艺、举一反三,他们专门给智能体打造了一个包含了数十亿游戏任务的“元宇宙”XLand:让智能体在不断扩展、升级的开放世界中通过上亿次的训练练就了不俗的泛化能力。

最终效果就像前面看到的,无需在新游戏中从头训练,它们就能自主解决任务!

DeepMind也因此发表了一篇论文,就叫做:《从开放学习走出来的通用智能体》。

如何做到的呢?

“元宇宙”XLand

最功不可没之一的就是这个庞大的“元宇宙”模拟空间。

这是一个“游戏星系”,里面有无数个“游戏星球”,每个星球上的游戏按竞争性、平衡性、可选项、探索难度四个维度进行区分。

比如图左上介绍的“抢方块”游戏:蓝色智能体需要把黄色的立方体放到白色区域,红色智能体需要把同一个立方体放在蓝色区域。

啊想想就头大,所以这个游戏的竞争性值都拉满了,而由于双方的条件/目标都一样,所以平衡性值也很高,因为需要定位目标区域,所以探索难度并不小。

再比如图右上的“将球体和立方体配对”:蓝色/红色智能体要将几何体按颜色归类到一起,完成任意一组配对就行。这个游戏的可选性值就拉满了,但竞争性就没那么强。

ps.蓝色游戏代表是完全竞争性的,粉色为完全合作性的。

不管是哪种游戏任务,这批智能体都从最简单的开始(比如仅“靠近紫色立方体”这种),一步步解锁复杂度升级的游戏(比如和另一个智能体“捉迷藏”),其中每一项游戏都有奖励,智能体们的目标就是将拿到的奖励最大化。

而智能体“玩家”们是通过阅读收到的目标的文字描述、观察RGB图像来感知周围环境来完成任务。

生成的新任务要基于旧任务,且难度要刚刚好

除了上面这个开放式的学习环境,训练方法也很重要。

研究人员使用的神经网络训练架构提供了一种针对智能体内部循环状态的注意力机制——通过估计所玩游戏的子目标,来持续引导智能体的注意力。

这种策略让智能体学习到更具普遍能力的策略。

还有一个问题:如此广阔的游戏环境,什么样的游戏任务分布能产出最善于泛化的智能体呢?

研究人员通过持续调整每个智能体的游戏分布发现,每个新任务都要基于通关的旧任务生成,不能太难,也不能太容易。

这个也基本符合一般认知。

它们先经历了四次迭代:

每个任务由多个智能体参与竞争,在旧任务上适应得好的智能体,会带着权重、瞬时任务分布、超参数等参与到新一轮任务中继续学习。此时也会加入新的智能体让竞争“活”起来。

智能体表现出明显的零样本学习能力

最后生成的第五代智能体,在XLand 4000多个“星球”里玩了大约70万个游戏,每一个智能体都经历了2000亿次训练,完成了340万个独特任务。

到了这个时候,这些智能体已经能够顺利完成每一项评估任务(除了少数即使是人类也不可能完成的)。

整个实验也最终表明,通过开发像XLand这样的环境和这样开放式地训练方法,一些基于RL的智能体已表现出明显的零样本学习能力(0-shot)。

比如使用工具、打拦(ridge-fencing)、“捉迷藏”、找立方体、数数、合作或竞争等。

研究人员也观察到智能体们面对新任务时不知道“什么是最好的解决办法”,但它们会不断地试验直到达到目标。

这个过程中出现的有趣的”紧急启发式行为”,除了开头提到的搭梯子,还有这个临时更换更简易目标的例子——

在一个游戏中该智能体需要从3个目标中任选一个完成:

1、将黑色金字塔放到黄色球体旁边;2、将紫色球体放到黄色金字塔旁边;3、将黑色金字塔放到橙色区域。

它一开始找到了一个黑色金字塔,想去完成目标3,但在搬运过程中看到了黄色球体,于是它就在1秒内改变了主意,选择直接将金字塔放在黄色球体旁边完成目标1。

(整个过程一共耗时6秒)

最后,看完了DeepMind的研究,再抛给大家一个问题:我们离真正的通用人工智能还有多远?

图片

(ps.你发现了吗,文章最开头高台取金字塔任务中的小红智障体就不行,一直打转,面对小蓝搭好的梯子甚至直接毁掉

相关标签
 相关文章
王慧文病休53天,旗下OneFlow团队重新创业 8月以前  |  1次阅读
智己CEO现场怒怼!不满LS6和小鹏G6当对手 8月以前  |  1次阅读
董明珠回应落榜世界500强:总比爆雷的世界500强好 8月以前  |  1次阅读
阿里云上线 AI 视频生成工具 Live Portait:可一键让照片开口说话 8月以前  |  78次阅读
妙鸭相机将并入神力视界,阿里大文娱CTO郑勇:不是“搬家”是“回家” 8月以前  |  85次阅读
特斯拉上海超级工厂约40秒下线一台车,零部件本土化率超95% 8月以前  |  69次阅读
宁德时代发布神行超充电池,可实现充电10分钟行驶800里 8月以前  |  71次阅读
中科院博士被骗到缅甸已一年!女友:他负债几万,家里条件一般,以为去当翻译 8月以前  |  85次阅读
小鹏汽车否认收购玛莎拉蒂传闻:系谣言 8月以前  |  63次阅读
联想二季度净利润猛降66%,股价应声跳水 8月以前  |  80次阅读
业内人士:视觉中国对不同侵权主体采用差异化策略,老客由销售沟通新客发律师函 8月以前  |  70次阅读
恒大集团在美国申请破产保护 8月以前  |  56次阅读
劳斯莱斯首款纯电轿跑将在北美亮相 8月以前  |  89次阅读
realme印度前CEO确认加盟荣耀,即将推出手机新品 8月以前  |  88次阅读
OpenAI正在测试内容审核系统,一天可以完成六个月的工作 8月以前  |  80次阅读
谷歌百人“复仇者联盟”出击,将发对标GPT-4的大模型,26位研发主管名单流出 8月以前  |  77次阅读
OpenAI收购数字产品公司Global Illumination,为创立以来首笔公开收购 8月以前  |  80次阅读
海口规定:电动汽车充电服务费不得超过0.65元每度 8月以前  |  80次阅读
波音任命柳青为波音中国总裁 8月以前  |  88次阅读
业内人士谈图片复杂代理链:图片代理商越多摄影师分成越少 8月以前  |  67次阅读

扫一扫

在手机上阅读