大数据文本分析：灵玖自然语言中文语义分词系统

自然语言通常是指一种自然地随文化演化的语言。英语、汉语、日语为自然语言的例子，而世界语则为人造语言，即是一种为某些特定目的而创造的语言。

自然语言具备两个属性：语言属性与自然属性。“语言”属性表现为公认的某些约定俗成的内在规律性;“自然”属性是说并不存在某个人为制造的、严格的语法规则体系来约定人们的语言表达方式，这是和程序设计语言大相径庭的。自然语言需要遵循一定的内在规律，但更大程度上是“存在即合理”。

一个自然语言处理系统必须考虑许多语言自身与结构方面的知识——如什么是词、词如何组成句子、词的意义是什么、词的意义对句子意义有什么贡献等，但这些却还是远远不够的。比如一个系统如果要回答提问或者直接参与对话，它不仅需要知道很多语言结构的知识，而且还要知道人类世界的一般性知识并具备人类的推理能力。因此许多语言学家通常把对语言的分析和理解分成如下几个主要层次：词法分析、句法分析、语义分析、篇章分析。

从自然语言的视角衡量逻辑语言,其不足有：初始词项的种类不够多样;量词的种类比较贫乏;存在量词的辖域在公式系列中不能动态的延伸;由于语境的缺失而使语言传达信息的效率不高。而灵玖软件 NLPIR文本搜索与挖掘系统充分解决了这些问题。NLPIR是一套专门针对原始文本集进行处理和加工的软件，提供了中间件处理效果的可视化展示，也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。

NLPIR文本搜索与挖掘系统的分词原理主要的运用了以下几种算法：

1、基于词典和规则的汉字分词

切分时，用待切分的字符串去匹配词典中的词条，如果匹配成功，则将其切分成一个词。这类方法包括各种形态的最大匹配分词方法、全切分分词算法等。

1) 最大匹配分词方法

最大匹配分词方法又分正向最大匹配、反向最大匹配和双向最大匹配方法。正向最大匹配从左到右每次取最长词;反向最大匹配每次是从右到左取最长词;双向匹配则是进行正向、反向匹配，然后对于两种匹配结果不同的地方再利用一定的规则进行消歧。

最大匹配法可能无法处理部分覆盖歧义、交叉歧义。但这种方法实现简单且切分速度快。

2) 全切分分词算法

利用词典匹配，获得一个句子所有可能的切分结果。由于全切分的结果数随着句子长度的增加呈指数增长，因此这种方法的时空开销大;对于比较长且包含较多歧义的句子，往往要经过很长时间才能遍历完所有的切分路径。

3) 基于理解的中文分词算法

分词中歧义消除的过程是一个理解的过程，这不仅需要词法信息，还需要句法和语义信息。所以目前也有些研究者尝试模拟人的理解过程，在分词过程中加入句法和语义分析来处理歧义问题。由于汉语语言知识的复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

2 基于大规模语料库的统计学习的分词方法

这类方法主要是利用从大规模语料库中通过统计得到的各种概率信息，来对中文字符串进行切分。这种方法往往不需人工维护规则，也不需复杂的语言学知识，且扩展性较好，是现今分词算法中较常用的做法。