谷歌教人工智能以激烈的游戏风格进行多任务处理
谷歌的DeepMind团队上周透露,能用一种快速的新方法来训练深度学习网络,结合了高级的算法和老式的视频游戏。
负责AlphaGo的团队DeepMind似乎相信机器可以像人类一样学习。该团队利用自己的ID软件的Quake III游戏构建的DMLab-30训练集和一个运行57个Atari游戏的街机学习环境,开发了一个名为重要的学习者体系结构(IMPALA)的新型训练系统。
通过IMPALA,人工智能系统可以快速播放大量视频游戏,并将训练信息从一系列“演员”发送到一系列“学习者”。
通常情况下,深度学习网络就像一个穿越游戏引擎的玩家。开发人员告诉计算机控制器的输入是什么,它就像一个拿着游戏手柄的人一样玩游戏。
然而,与IMPALA相比,系统不仅可以比其他方法更高效地玩游戏10次,而且还可以同时玩其他一大堆游戏。这就像有30多个玩家学习如何用一个“borg”脑获得所有的经验。
AI开发人员面临的最大挑战之一是训练神经网络所需的时间和处理能力。与传统的编程不同,传统的编程:一个聪明的人掏出一堆代码,最终变成一个程序,而自主机器需要规则,他们可以尝试一下,试图找到一种方法来找出处理现实世界的问题。
既然我们不能只是建造机器人,让他们仅仅弄清楚事情,那么模拟成为主要的部分。为此,深度强化学习对于需要上下文自主性的任务变的至关重要。
例如,一辆自动驾驶汽车应该能够自行决定是应该加速还是减速。但是不应该选择是否在便利店前面开车。它学习了应该做什么样的决定以及如何在模拟环境中做出决定。
IMPALA解决的另一个问题是可扩展性。调整算法和调整内容以缩短训练时间是一回事,但是在一天结束时,成功训练AI的要求并不基于记录的小时数。
为了使当前的神经网络达到足够高的成功率,以证明其在任何可能伤害人类或损害库存的自主机器中的成功率,他们必须从训练环境中产生数十亿的“帧”(图像)。
根据研究人员的说法,“给予足够的基于CPU的参与者,IMPALA代理的吞吐量可以达到250,000帧/秒或210亿帧/天。”这使得DeepMind的人工智能达到了我们所知道的绝对最快的速度的任务。
根据IMPALA白皮书的说法,更令人惊叹的是,人工智能比以前的人工智能系统和人类都要好。我们已经知道DeepMind的AI在游戏方面比我们好。