为什么会有深度学习？如何看待？

摘要：最近，深度学习成为一个流行语。有分析人士称，它会吞噬掉目前已知的其他机器学习（ML）方法。其他人则将深度学习的市场形容为一个金矿，称该技术有望取代整个行业和应用的大量人力干预。在本文，我试着简化深度学习的概念，并对其未来在 ML 生态系统的发展做了一些观察。

有趣的是，深度学习的概念并不是新出现的。它只不过是一个扩展的人工神经网络（ANN）算法，在90年代初曾经风靡一时，但后来被边缘化。为什么？因为 ANN 要求非常大的数据集来训练，但这不太符合实际。有了深度学习，ANN 又重获新生。怎么做呢？深度学习算法训练多层神经网络，管理比以往规模更小的数据。

为什么我们需要深度学习？

好吧，答案很简单。可以用更多的数据或是更好的算法来提高学习算法的结果。对某些应用而言，深度学习在大数据集上的表现比其他机器学习（ML）方法都要好（稍后将讨论例外情况）。这些又如何转化为现实生活中的情形呢？深度学习更适合无标记数据，因而它并不局限于以实体识别为主的自然语言处理（NLP）领域。

深度学习与机器学习相比表现如何？

最通俗地说，深度学习探索了神经网络的概率空间，这是传统的机器学习工具所做不到的。熟悉ML的人会知道，与其他工具相比，深度学习算法更适合未标记数据，更适合强特征提取（深度框架），也更适合于模式识别（图像、文本、音频）。这多半可以归因于它能减少模型中自由参数的数目。

那是否可以说深度学习会取代所有其他的算法工具呢？

不一定。对于许多应用，比较简单的算法反而更有效，比如逻辑回归和支持向量机。尽管对于某些监督学习算法来说，深度学习可能会促使传统方法走向灭亡。但也有变通的解决方案，比如，可以增加训练数据集规模使它适合深度学习算法。

为什么支持者们对深度学习如此兴奋？

一个主要原因是，它是一个元算法，完全不同于线性模型或核模型，比如逻辑回归的支持向量机。这意味着深度学习不以任何损失函数为特征，也不会被特定公式限制。这使得该算法对科学家们更为开放，它能以比其他ML工具更好的方式进行使用和扩展。不可否认深度学习是一种特征转换的学习。

深度学习是我们目前拥有的最具人脑特征的算法吗？

如果一些分析师说，深度学习更像人脑而其他的ML工具却不是——那他们没有说清全部的事实。如果你听说过Numenta，你就会知道我为什么说这个。Numenta皮层算法是基于层次时间记忆(HTM)的，它继承了稀疏分布式记忆的最初概念，一个学习人类长期记忆的数学模型。Numenta是如何做到更好的呢？它的特征提取既可以实现时间上的模式提取（但深度学习不能）也可以实现计算空间维度上模式提取——给它一个类似人脑的模仿。也可以有稍微不同的理解方式。Numenta稀疏分布式存储器采用二进制数据表示（通常为10000位），激发它们学习数据并用稀疏的方式表示（它因此得名）。该算法比较数据位，并试图找到位的模式并搜索匹配值。相比之下，深度学习使用浮点向量（通常为每个数据100个元素），并结合梯度下降之类的算法在多层网络上学习数据表示。

鉴于此，我经常发现深度学习和Numenta之间存在不合理的争辩。首先，让我们看看支持者的观点。起初，一些人认为Numernta中并没有很多学习过程。其他人发现了用于无监督学习的Numenta HTM APT算法，据称与深度学习算法相比有明显的优势。Numenta也被认为是精简内存要求的在线机器学习算法。事实上Numenta也正日益受到重视。今年四月，IBM建立了一个研究组测试Numenta。但更大而且经常被忽略的事实是，深度学习是多层模型。即使不是所有情况，那大多数情况下也是，神经网络模型通常一次只能解决一个问题类型。对于多类型问题，神经网络就需要使用集成或混合模型。而且在这方面深入学习的多层模型有显著优势，这是其他工具做不到的，包括Numenta。然而，也有Numenta的多层模型的关于时序统筹的思辨语义和HTM的感知扩展。

无论结果是什么，这都是能让所有人很感兴趣的时代。毫无疑问，各种技术和工具都将继续发展，而且这场辩论可能会在未来几年里发生非常大的转折。旨在寻找数据意义的科技公司和数据收集者推动了各种工具的发展，无论是移动应用程序开发人员或传感器的主人。用户永远更喜欢速度更快的，更简便的工具。深度学习因这些特性而更有优势，这也是它绝对需要保持的地方。