随着人工智能的进步和技术变得越来越复杂,我们希望现有的概念能够接受这种变化或者改变自己。同样,在自然语言的计算机辅助处理领域,自然语言处理的概念是否会让位于自然语言理解?或者这两个概念之间的关系是否比仅仅技术的线性进展更微妙和复杂?
在这篇文章中,我们将仔细研究NLP和NLU的概念以及它们在AI相关技术中的优势。
重要的是,虽然有时可以互换使用,但它们是两个有一些重叠的不同概念。首先,他们都处理自然语言和人工智能之间的关系。他们都试图理解非结构化数据,如语言,而不是像统计、行动等结构化数据。但是,NLP和NLU是许多其他数据挖掘技术的对立面。
自然语言处理
NLP是一个已经建立的,已有数十年历史的领域,在计算机科学、人工智能以及越来越多的数据挖掘领域开展业务。 NLP的最终目的是通过机器读取、解读、理解人类语言,将某些任务从人类身上移除并允许机器来处理它们。此类任务的常见实际示例是在线聊天机器人、文本摘要生成器,自动生成的关键字选项卡,以及分析给定文本情绪的工具。
NLP的作用
从广义上讲,NLP可以指代广泛的工具,例如语音识别、自然语言识别和自然语言生成。然而,NLP最常见的任务是历史性的:
- 符号化
- 解析
- 信息提取
- 相似
- 语音识别
自然语言和语言世代以及许多其他语言。
在现实生活中,NLP用于文本摘要、情感分析、主题提取、命名实体识别、词性标注、关系提取、词干提取、文本挖掘、机器翻译和自动问答,本体填充、语言建模和我们可以想到的所有与语言相关的任务。
NLP技术NLP的两个支柱是句法分析和语义分析。
总之:NLP依靠机器学习通过分析文本语义和语法从人类语言中获得意义。
自然语言理解
虽然NLP可以追溯到20世纪50年代,当计算机程序员开始尝试简单的语言输入时,NLU在20世纪60年代开始开发,希望让计算机能够理解更复杂的语言输入。它被认为是NLP的一个子主题,自然语言的目的较窄,主要侧重于机器阅读理解:让计算机理解文本的真正含义。
NLU实际上做了什么
与NLP类似,NLU使用算法将人类语音降低为结构化本体。然后AI算法检测意图、时间、位置和情绪等事物。但是,当我们查看NLU任务时,我们会惊讶地发现这个概念建立了多少NLP:
自然语言理解是许多过程的第一步,例如分类文本、收集新闻、归档单个文本以及更大规模地分析内容。 NLU的现实世界范例包括小任务,例如基于理解文本发布短命令到一定程度,例如基于基本语法将电子邮件重新路由到合适的人和一个体面大小的词典。更为复杂的努力可能是完全理解新闻文章或诗歌或小说中的含义。
总而言之:最好将NLU视为实现NLP的第一步:在机器处理语言之前,必须首先理解它。
NLP和NLU如何相关联的
从其任务可以看出,NLU是自然语言处理的一个组成部分,它是负责人类理解某个文本所呈现的含义的部分。与NLP最大的区别之一是NLU不仅仅是理解单词,它还试图解释人为常见的错误,如错误发音或字母或单词的位移。
推动NLP的假设是Noam Chomsky在1957年的“句法结构”中所设定的假设:“语言L的语言分析的基本目标是将L的句子的语法序列与不符合语法的序列分开。不是L的句子,而是研究语法序列的结构。“
句法分析确实用于多种任务中,通过将语法规则应用于一组单词,并通过多种技术从中获得意义,从而评估语言如何与愈发规则保持一致:
- 词形还原:将单词的变形形式简化为单一形式,以便于分析。
- 词干提取:将变形的词语切割成词根形式。
- 语素切分:将单词划分为语素。
- 分词:将连续文本分成不同的单元。
- 解析:句子的语法分析。
- 词性标注:为每个单词识别词性。
- 断句:在连续的文本上设置句子边界。
但是,语法正确性或不正确性并不总是与短语的有效性相关。想想一个无意义的语法句子的经典例子“无色的绿色思想疯狂地睡觉。”更重要的是,在现实生活中,有意义的句子通常包含小错误,可以归类为不合语法。人工交互允许产生的文本和语音中的错误通过优秀的模式识别和从上下文中获取附加信息来补偿它们。这显示了以语法为中心的分析的不平衡性以及需要更加关注多级语义。
语义分析是NLU的核心,涉及应用计算机算法来理解单词的含义和解释,但尚未完全解决。
以下是语义分析中的一些技巧,仅举几例:
- 命名实体识别(NER):确定可以识别并分类为预设组的文本部分。
- 词义消歧:根据语境赋予词语意义。
- 自然语言生成:使用数据库导出语义意图并将其转换为人类语言。
然而,为了完全理解自然语言,机器不仅需要考虑语义提供的字面意义,还需要考虑预期的信息,或理解文本试图实现的内容。这个级别称为语用分析,它刚刚开始引入NLU / NLP技术。目前,我们可以在一定程度上看到情绪分析:评估文本中包含的消极/积极/中立感受。
NLP的未来
为了实现创建一个能够以人类方式与人类互动的聊天机器人的目标,最后,通过图灵测试,企业和学术界正在投入更多的NLP和NLU技术。他们想到的产品旨在轻松,无人监督,并能够以适当和成功的方式直接与人们互动。
为实现这一目标,该研究分三个层次进行:
- 语法 – 理解文本的语法。
- 语义 – 理解文本的字面意义。
- 语用学 – 理解文本的意图
不幸的是,理解和处理自然语言并不像提供足够大的词汇量和训练机器那么简单。要取得成功,NLP必须融合来自各个领域的技术:语言、语言学、认知科学、数据科学、计算机科学等。只有结合所有可能的观点,我们才能揭开人类语言的神秘面纱。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。