(1)游戏公司 Atari 在1977年推出的 Breakout (突围)电脑游戏,主要开发者是苹果公司的创始人之一, Steve Wozniak. 乔布斯的角色是 Atari 和 Wozniak 中间的掮客.
Atari 起先告诉乔布斯,游戏如果四天内开发出来,将支付 700 美元的报酬乔布斯许诺和 Wozniak 平分这笔钱但Wozniak 不知道的是, Atari 还承诺如果此游戏在逻辑芯片的需求上低于某个指标,将给予更多的奖励.
最终Wozniak 连续四天挑灯夜战只拿到了 350 美元 的报酬, 而乔布斯则独吞了从 Atari 那里获得的五千美元的额外奖励等Wozniak 知道真相时,已经是1984年,苹果上市四年了.
(下图为 Wozniak 和 Jobs)
“突围” 游戏的规则很简单:显示屏上八层砖头,每两层是同一种颜色, 总共分黄,绿,桔,红四色玩家用板子击球,球碰倒砖头后就得分不同颜色的砖头得分各不相同如果来球没有被接到,就丢掉一个回合球的速度随着击打次数的增加也不断增加最终目的是在三个回合内获得最高分.
有兴趣的读者建议亲自去玩一下这个游戏要想成为高手,着实不易。
(2)2013年12月,总部在伦敦的 Deepmind 公司的团队发表论文:Playing Atari with Deep Reinforcement Learning (”使用深度增强学习玩Atari 电脑游戏”), 详细地解释了他们使用改进的神经网络算法在包括 Atari Breakout 在内的电脑游戏的成果.
Deepmind 算法设计时,把电脑游戏的最新的四帧屏幕,作为神经网络的输入每帧屏幕用 84 x 84 的像素表征.
除了获得的分数以外,没有任何人为输入的游戏规则的信息全靠长期培训,让机器自己悟出,什么是最佳的策略.
这颇有点像某哲人曾经对培养华尔街交易员的评论, “我们把他们扔到有很多鲨鱼的水箱里,能自己野蛮生长的,就留下来 “.
神经网络有三个隐层,其中有两个卷积层 (convolution layer), 用于过滤和提取像素中的局部特征第三层是一个全连接层 (Fully connected layer), 针对游戏中每一个瞬间玩家可能采取的行动选择 (大约有 4-18个行动选择),输出相应的价值函数的估算
不同行动选择的回报值,就是所谓的 Q-value. 神经网络的培训,就是要拟合 Q-value,用于计算如何选择利益最大化的行动. 这个用三层神经网络学习打游戏的模型,就叫 Deep-Q-Network (深度-Q-网络, 简称 DQN).
DQN 的参数初始值,完全随机化,就像一个新入行,两眼一抹黑的小白但开始不懂没关系,最重要的,是自我学习新技能的速度.
(3)在增强学习和运筹学里一个经典问题是选择勘探还是开发 (exploration or exploitation) . 换言之,是仅仅根据现有的信息把利益最大化,还是花一部分时间去探索外面的世界是否更精彩.
解决这个问题的通行做法,是所谓的 epsilon-greedy strategy, 这里翻译为 “有时不贪婪的策略”. 这个策略,就是大部分时间贪婪 (根据现有信息寻求利益最大化),但是还有 epsilon 的几率去做一些完全随机的探索 (有时不贪婪).
埋头读书工作,固步自封的人,epsilon = 0, 这是传统的贪婪策略.
天天到处乱晃,东一榔头西一棒子的人, epsilon = 1.
这两个极端都不好.
有时不贪婪,做一些短期的牺牲,是为了长期的贪婪和利益最大化如何把握 epsilon 这个度,是个挑战.
DQN 的 epsilon 的初始值为 1,以随机探索为主, 经过一百万帧的培训后慢慢降到 0.1 不变, 也就是始终保持 10%的时间随机探索.
对于一个 60 赫兹的显示屏而言,一秒钟是 60帧,一百万帧就相当于约四个多小时的游戏时间.
DQN 在拟合神经网络参数的计算时,使用了上篇文章提到的 经历回放的技巧,用于存储经历的空间达到一百万帧.
DQN的算法,用大白话来说,是这样的:
神经网络参数随机初始化 (刚出道,什么都不懂,无知者无畏)
把下面的循环重复 N 遍:
从 1 到 T 时间
以 epsilon 的几率随机探索
否则, 选择现有认知下, 利益最大化的行动 a(t)
干 a(t), 完事后记下回报 r(t), 和新状态 s(t+1)
把刚才的经历写入记忆,用于以后回放
从记忆中随机提取部分经历,
通过随机梯度下降的计算方法,优化拟合神经网络的参数,
(这个参数优化就好比: 昨天股票抄底亏大了, 下次少抄底;前天买的房子又涨了, 下次就多放点钱买房)
经过长期培训后的 DQN, 打电脑游戏时的表现,让程序设计者也大吃一惊。
本文为专栏文章,来自:硅谷王川,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/27054.html 。