What is deep learning, and why should you care
第一次看到Kaggle图像识别大赛的结果时,我不相信它是真的。我在机器视觉领域已经投入了几年的时间,在图片中区分猫和狗这种很棘手的问题上,大赛结果显示的精确度是我从未见过的,甚至不敢想像在未来的几年能够达到的。为了了解更多,我约见了一位参赛者,Daniel Nouri,他给我展示了他是如何使用开源项目Decaf达到这么好的结果的。他还向我展示了如何快速将它应用到我们在Jetpac上遇到的图像识别问题上,并且结果远比我之前的方法要好。
我从未见过一项技术,几年前还不被熟知,而短时间内竟有如此大的进步,我对此产生了浓厚的兴趣,想要深入了解一下。为了能够将它用于数以百万计的商业图片中,我建造了自己的特殊的库,用以高效的在低端的机器和嵌入式设备集群上跑预测,我也花了几个月的时间学习如何训练神经网络的黑暗艺术。现在我急切的想要分享一下我的发现,如果你很好奇到底什么是深度学习,以及它会如何帮助你,我接下来会在Radar上发表一系列的博客文章来介绍一些基本概念,并会出版一个简短的电子书。
到底什么是深度学习?
它是涵盖了建立和训练神经网络的特殊方法的一个术语。神经网络最早在上世纪五十年代被提出,就像核聚变一样,他们曾是很有前途但很不可思议的实验室想法,迟迟未能在实际中应用。我会在稍后章节详细介绍神经网络是如何工作的,现在你可以把它当作一个作出决策的黑盒子。它们以一个数组作为输入(数组可以代表像素,音频微波,或者单词),在这个数组上运行一系列的函数,输出一个或多个数字。输出结果一般是对你试图从输入中得出的一些特性的预测,例如一张图片上画的是不是一只猫。
在黑盒子里运行的功能是由神经网络的内存控制的,权重数组负责决定如何将输入数据进行组合和重组来生成结果。像猫检测这样的实际问题,在处理时需要非常复杂的功能,也就是说它的这些权重数组会非常大。一个最近的计算机视觉网络问题,其权重数组包含大约6千万的数据。使用神经网络的一个最大的障碍是如何给这些巨大的数组赋值,才能很好的将输入信号转换成输出的预测结果。
训练
研究人员一直致力于训练神经网络,主要原因是神经网络理论上是可教的。在小规模的问题上,根据一系列的样本输入和期望输出,通过机械加工,让权重从一开始的随机数逐步变成可以提供更精准的预测的数字,是一个非常简单的过程。问题的关键是如何在更复杂的问题上做好这件事,比如语音识别或计算机视觉这些权重数量巨大的问题。
这是在2012 Imagenet Paper会议引发神经网络复兴以来的一个真正突破。Alex Krizhevsky,Ilya Sutskever 和 Geoff Hinton将很多不同的加速学习的程序汇集在一起,包括卷积网络(convolutional networks),巧妙运用GPU,和一些新的数学计算技巧比如如ReLU和dropout,结果显示,他们可以在几周内训练出一个非常复杂的网络,并且这个网络在计算机视觉上可以达到与以往很出色的传统方法几乎一样的效果。
这并不是一个单独的或偶然的事件,类似的方法已经在自然语言处理和语音识别上得到了很成功的应用。这就是深度学习的核心--这种新技术让我们可以搭建和训练神经网络来解决以前无法解决的问题。
与其它方法的有何不同?
大多数机器学习方法的困难点在于从原始输入数据中识别出特征,比如用于识别图片的SIFT或SURF。而深度学习去掉了这一环节,改为用训练过程从输入样本中发觉最有用的模式(pattern)。虽然开始前你仍需要对网络的内部布局做出选择,但自动挖掘特征已经让一切容易了很多。另一方面,神经网络比其它机器学习技术更通用。我已经成功的使用原来的Imagenet network识别它从未被训练过的对象,甚至其它图片相关的任务比如现场分析(scene-type analysis)。底层的架构和训练网络的技术对所有自然数据,如音频,地震传感器或自然语言等,都通用。没有任何其他方法可以如此灵活。
为什么要深入研究?
最根本的原因是深度学习做的非常好,如果你处理过杂乱的真实数据,那么在未来几年这将是你工具包里的基本要素。直到最近,他才被当作晦涩的令人生畏的领域来学习,但是它的成功带来了极为丰富的资源和项目,使得学习神经网络变得比以往简单很多。我很期待带领你一起学习其中一部分,深入研究网络的内部工作原理,在我们一起体验这项新技术的同时能够有一些有趣的探索。
本文为专栏文章,来自:董飞,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/18548.html 。