自然语言处理终极方向：深度学习用于自然语言处理的5大优势

作者：Jason Brownlee

在自然语言处理领域，深度学习的承诺是：给新模型带来更好的性能，这些新模型可能需要更多数据，但不再需要那么多的语言学专业知识。

关于深度学习方法有很多炒作和大话，但除了炒作之外，深度学习方法正在为挑战性问题取得最先进的结果，特别是在自然语言处理领域。

在这篇文章中，您将看到深度学习方法应对自然语言处理问题的具体前景。看完这篇文章后，你会知道：

自然语言处理深度学习的承诺。
深度学习从业人员和研究科学家对自然语言处理深度学习的承诺有什么说法。
自然语言处理的重要深度学习方法和应用。

让我们开始吧。

深度学习的承诺

深度学习的方法很受欢迎，主要是因为它们兑现了当初的承诺。

这并不是说在技术上没有任何炒作，而是说，这种炒作是基于非常真实的成果。这些成果正在从计算机视觉和自然语言处理的一系列极具挑战性的人工智能问题中得到证实。

深度学习力量的第一次大型展现，就是在自然语言处理领域，特别是在语音识别方面。最近的进展则是在机器翻译方面。

在这篇文章中，我们将看到，自然语言处理领域的深度学习方法的五个具体承诺。这些承诺是这个领域的研究人员和从业人者最近所强调的，而这些人面对这些承诺的态度比一般的新闻报道要克制得多。

总而言之，这些承诺是：

深度学习插入替换现有模型。深度学习方法可以插入现有的自然语言系统，由此产生的新模型可以实现同等或更好的性能。

新NLP模型。深度学习方法提供了新的建模方法以挑战自然语言问题（如序列-序列预测）。

特征学习。深度学习方法可以从模型所需的自然语言中学习特征，而不需要专家指定、提取特征。、

持续改进。自然语言处理中的深度学习的表现是基于真实世界的结果，并且所带来的改进正在持续，还可能加速。

端对端模型。大型端对端深度学习模型可以适应自然语言问题，提供更一般和更好的方法。

我们现在将仔细看看这些承诺中的每一个。其实自然语言处理深度学习还有一些其他承诺;，这些只是我从中选择的最突出的五个。

深度学习插入替换现有模型

自然语言处理中的深度学习的第一个承诺是，能够用具有更好性能的模型替代现有的线性模型，能够学习和利用非线性关系。

Yoav Goldberg在他的《NLP研究人员神经网络入门》中强调，深度学习方法取得了令人印象深刻的成果，他说在此文中说：“最近，神经网络模型也开始应用于文本自然语言信号，并再次带来了非常有希望的结果。”

他还继续强调，这些方法易于使用，有时可用于批量地替代现有的线性方法。他说：“最近，该领域在从稀疏输入的线性模型切换到稠密数据的非线性神经网络模型方面取得了一些成功。大多数神经网络技术都很容易应用，有时候几乎可以替代旧的线性分类器；不过，在许多情况下仍存在着使用神经网络的障碍。”

新NLP模型

另一个承诺是，深度学习方法有助于开发全新的模型。

一个很好的例子是，使用能够学习和判断超长序列输出的循环神经网络。这种方法与从前的完全不同，因为它们允许NLP从业者摆脱传统的建模假设，并实现最先进的结果。

Yoav Goldberg在其NLP深度学习的专著《自然语言处理的神经网络方法》第xvii页指出，像循环神经网络这样复杂神经网络模型可以带来全新的NLP建模机会。他说，“在2014年左右，该领域已经开始看到，在从稀疏输入的线性模型到稠密输入的非线性神经网络模型的转换方面，已取得了一些成功。 .……其他的变化更高级，需要研究者改变思维，并能带来新的建模机会。特别是，基于循环神经网络（RNNs）的一系列方法减轻了对序列模型中普遍存在的马尔可夫假设的依赖，允许以任意长序列为条件，并产生了有效的特征提取器。这些进步导致了语言建模、自动机器翻译和其他应用的突破。”

特征学习

深度学习方法具有学习特征表示的能力，不必要求专家从自然语言中人工指定和提取特征。

NLP研究员Chris Manning在自然语言处理深度学习课程的第一次讲座中突出了这方面的观点。

他描述了人工定义输入特征的局限性：按照这种方法，在之前的应用中，机器学习只是在统计NLP中证明人类事先定义的特征，并且计算机几乎没有学习。

Chris 认为，深度学习方法带来的承诺是自动特征学习。他强调，特征学习是自动的，而不是人工；它易于适应，不脆弱，并可以不断自动地改善。

Chris Mining 在2017年的《自然语言处理与深度学习》讲座第一讲幻灯片中说，“一般来说，我们人工设计的特征往往被过度地指定，它们不完整，需要很长时间才能设计和验证，会让你忙活一天后只能达到有限的性能水平。而深度学习到的特征易于适应，能快速训练，它们可以持续学习，以便达到以前未能实现的、更好的性能水平。

持续改进

NLP的深度学习的另一个承诺是，在挑战性问题上持续快速改进。

在《自然语言处理与深度学习》讲座第一讲中，Chris Manning表示，深度学习的方法很受欢迎，因为它们很管用。他说，“深度学习对大多数人来说如此令人兴奋的真正原因是，它确实管用。“

他强调，深度学习的初步结果令人印象深刻。深度学习在语音领域的表现比过去30年中任何其他方法的表现都更好。

Chris 提到，深度学习带来的不仅是最先进的成果，而且是不断改进的进步速度。他说，”……在过去的六七年中，非常令人惊叹的是，深度学习方法一直在不断改进，并以惊人的速度变得更好。我其实想说，这是前所未有的，我看到这个领域飞速地进展，每个月都会推出更好的方法。“

端对端模型的承诺

深度学习的最终承诺是，开发和训练自然语言问题的端对端模型能力，而不是为专门模型开发流程。

端对端模型不仅能改进模型的性能，也能带来更好的开发速度和简洁性。

神经机器翻译（简称NMT）是指，尝试学习将一种语言翻译成另一种语言的大型神经网络。传统上，这是由一系列手工调整的模型组成的流程来处理的，而流程中的每个模型都需要专业语言知识。

Chris Manning 在斯坦福大学NLP深度学习课程第十讲《神经机器翻译和注意模型》中描述了这一点。他说：”神经机器翻译是指，我们想要做的是构建一个大型神经网络，在这个网络中我们可以对训练整个端到端机器翻译过程并进行优化。……这种远离人工定制模型、朝向端到端、序列到序列预测模型的趋势，一直是语音识别的趋势。这样做的系统被称为NMT （神经机器翻译）系统。

设计端到端模型，而非为专门系统设计流程，这也是语音识别的一个趋势。

在斯坦福NLP课程第十二讲《语音处理的端到端模型》中，目前就职于Nvidia的 NLP研究员Navdeep Jaitly强调，语音识别的每个组成部分都可以用神经网络来代替。自动语音识别流程中的几大组块是语音处理，声学模型，发音模型和语言模型。问题是，每个组块的属性和错误类型是不同的。这激发了开发一个神经网络来端到端地学习整个问题的需要。

他说，“随着时间的推移，人们开始注意到，如果我们使用神经网络，这些组件中的每一个都可以做得更好。 ……但是，仍然有一个问题。每个组件都有各自的神经网络，但是每个组件中的错误都是不同的，所以它们可能无法很好地协同工作。所以这让我们拥有动机，尝试去把整个语音识别当作一个大模型来训练。”

自然语言处理深度学习网络的类型

深度学习是一个很大的学习领域，并不是它的所有内容都与自然语言处理相关。

哪些类型的深度学习模型能提升性能？学习者在具体优化方法上很容易陷入泥沼。

从较高层次看，深度学习中有5种方法在自然语言处理中应用最为广泛。

他们是：