基于词典的分词算法

发布时间: 2023-04-15 08:02:39

⑴ 有哪些比较好的中文分词方案

1. 好词典很重要m不论什么样的分词方法, 优秀的词典必不可少, 越拿老掉牙的词典对越新的文本进行分词, 就越会分成一团糟. 怎样构建一个优秀的词典, 快速发现新新词汇.。可以看有几篇文章，讲的非常透彻明白 : 互联网时代的社会语言学：基于SNS的文本数据挖掘。

2. 算法跟着需求走,建议根据不同的需求选用不同的算法, 例如, 类似知乎头部搜索的 AutoComplete 部分, 讲究的是速度快, 兴趣相关( 优先找和你账户相关, 和可能感兴趣的内容 ), 分词算法反而在其次了. 而像全文搜索这样大段大段的长文字.。我觉得则更注重的是精准, 应该选一个像CRF这样的算法。

⑵ 分词方法有哪些

分词是指将一段扮键岩句子切分成一个个单独的词项，对于英文来讲，单词作为词项，由于英文的书写格式，词与词之间必须有空格，这样搜索引擎很容易将一段句子处理成词项的集合;但是中文来讲，词之间没有厅御空格，搜索引擎不能够直接将句子处理成词项的集合，需要一个分词过程，这里简单介绍搜索引擎中文分词的方法。
一、基于词典的分词方法
也叫“机械分词法”，将分词的句子与词典中的词语进行匹配，如果匹配成功，则将匹配的部分作为亮亩一个词，最后生成一个词语序列，根据分词的方向与优先长度不同可分为一下四种方法：
1、正向匹配法
根绝句子的正序(由左至右)进行匹配，例如：发展中国家，切分为：发展/中国/家。
2、逆向匹配法
根据句子的逆序(由右至左)进行匹配，例如：发展中国家，切分为：发展/中/国家。
3、最大匹配法
根据词典中最长的词语的长度确切分，如果不是，则在使用次一级长度去切分，假设字典中最长的词语是4个，以“发展中国家”为例，首先截取前四个“发展中国”判断，如果与字典中的词匹配，那么就是词项，如果不匹配，那就截取前三个词“发展中”来判断，以此类推直至切分出词项。
4、最小匹配法
同最大匹配法刚好相反。
二、基于理解分词的方法
为了解决分词中的歧义问题，搜索引擎完全模拟人理解句子的过程，对句子进行句法分析与语义分析，这个方法需要大量的语言知识和信息，计算过程比较复杂，对搜索引擎的基础硬件要求比较高。
三、基于统计分词的方法
随着时代与互联网的发展，会产生很多新的词汇，例如一些人名、新科技名词、新事件名(比如XX门、XX帝等)，这些词汇未被词典收录，这些词成为“未登录词”，这些词汇的切分就要依靠统计分词的方法，搜索引擎通过统计这些字在整个语料库中出现的频率，例如在语料库中发现“S”、“E”、“O”同时出现的次数非常高，那么搜索引擎就判定”SEO”是一个词汇。

⑶ 切词技术是什么

二、中文分词技术的分类

我们讨论的分词算法可分为三大类：基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。

第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词，如：最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富，词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息，如把相邻字间的信息、词频及相应的共现信息等应用于分词，由于这些信息是通过调查真实语料而取得的，因而基于统计的分词方法具有较好的实用性。

下面简要介绍几种常用方法:

1)逐词遍历法

逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低，大一点的系统一般都不使用。

2)基于字典、词库匹配的分词方法(机械分词法)

这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。识别出一个词，根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况，分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下：

(一)最大正向匹配法 (Maximum Matching Method)通常简称为MM法。

其基本思想为：假定分词词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典。若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理…… 如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文档被扫描完为止。

其算法描述如下：

初始化当前位置计数器，置为0;

从当前计数器开始，取前2i个字符作为匹配字段，直到文档结束;

如果匹配字段长度不为0，则查找词典中与之等长的作匹配处理。

如果匹配成功，则，

a)把这个匹配字段作为一个词切分出来，放入分词统计表中

b)把当前位置计数器的值加上匹配字段的长度

c)跳转到步骤2)

否则

a) 如果匹配字段的最后一个字符为汉字字符

则①把匹配字段的最后一个字去掉;

②匹配字段长度减2;

否则①把匹配字段的最后一个字节去掉;

②匹配字段长度减1;

b)跳转至步骤3)

否则a)如果匹配字段的最后一个字符为汉字字符，

则当前位置计数器的值加2;

否则当前位置计数器的值加1;

b)跳转到步骤2)

(二)逆向最大匹配法 (Reverse Maximum Matcing Method)通常简称为RMM法。RMM法的基本原理与MM法相同 ,不同的是分词切分的方向与MM法相反，而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描，每次取最末端的2i个字符(i字字串)作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配。相应地，它使用的分词词典是逆序词典，其中的每个词条都将按逆序方式存放。在实际处理时，先将文档进行倒排处理，生成逆序文档。然后，根据逆序词典，对逆序文档用正向最大匹配法处理即可。

由于汉语中偏正结构较多，若从后向前匹配，可以适当提高精确度。所以，逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明 ,单纯使用正向最大匹配的错误率为 1/16 9,单纯使用逆向最大匹配的错误率为 1/245。例如切分字段“硕士研究生产”，正向最大匹配法的结果会是“硕士研究生 / 产”，而逆向最大匹配法利用逆向扫描，可得到正确的分词结果“硕士 / 研究 / 生产”。

当然，最大匹配算法是一种基于分词词典的机械分词法，不能根据文档上下文的语义特征来切分词语，对词典的依赖性较大，所以在实际使用时，难免会造成一些分词错误，为了提高系统分词的准确度，可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案(即双向匹配法，见(四)。)

(三)最少切分法：使每一句中切出的词数最小。

(四)双向匹配法：将正向最大匹配法与逆向最大匹配法组合。先根据标点对文档进行粗切分，把文档分解成若干个句子，然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，按最小集处理。

3).全切分和基于词的频度统计的分词方法

基于词的频度统计的分词方法是一种全切分方法。在讨论这个方法之前我们先要明白有关全切分的相关内容。

全切分

全切分要求获得输入序列的所有可接受的切分形式，而部分切分只取得一种或几种可接受的切分形式，由于部分切分忽略了可能的其他切分形式，所以建立在部分切分基础上的分词方法不管采取何种歧义纠正策略，都可能会遗漏正确的切分，造成分词错误或失败。而建立在全切分基础上的分词方法，由于全切分取得了所有可能的切分形式，因而从根本上避免了可能切分形式的遗漏，克服了部分切分方法的缺陷。

全切分算法能取得所有可能的切分形式，它的句子覆盖率和分词覆盖率均为100%，但全切分分词并没有在文本处理中广泛地采用，原因有以下几点：

1)全切分算法只是能获得正确分词的前提，因为全切分不具有歧义检测功能，最终分词结果的正确性和完全性依赖于独立的歧义处理方法，如果评测有误，也会造成错误的结果。

2)全切分的切分结果个数随句子长度的增长呈指数增长，一方面将导致庞大的无用数据充斥于存储数据库;另一方面当句长达到一定长度后，由于切分形式过多,造成分词效率严重下降。

基于词的频度统计的分词方法：

这是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。

⑷ 自然语言处理（NLP）的基础难点：分词算法

自然语言处理（NLP，Natural Language Processing）是人工智能领域中的一个重要方向，主要研究人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析（还包括词性标注和命名实体识别）中最基本的任务，也是众多NLP算法中必不可少的第一步，其切分准确与否往往与整体结果息息相关。

金融领域分词的难点

分词既简单又复杂。简单是因为分词的算法研究已经很成熟了，大部分的算法（如HMM分词、CRF分词）准确率都可以达到95%以上；复杂则是因为剩下的5%很难有突破，主要可以归结于三点：

▲粒度，即切分时的最小单位，不同应用对粒度的要求不一样，比如“融资融券”可以是一个词也可以是两个词

▲歧义，比如“恒生”一词，既可指恒生公司，又可指恒生指数

▲未登录词，即未出现在算法使用的词典中的词，比如不常见的专业金融术语，以及各种上市公司的名称

在金融领域中，分词也具有上述三个难点，并且在未登录词方面的难点更为突出，这是因为金融类词汇本来就多，再加上一些专有名词不仅有全称还有简称，这就进一步增大了难度。

在实际应用中，以上难点时常会造成分词效果欠佳，进而影响之后的任务。尤其是在一些金融业务中，有许多需要与用户交互的场景，某些用户会用口语化的词汇描述业务，如果分词错误会影响用户意图的解析，这对分词的准确性提出了更高的要求。因此在进行NLP上层应用开发时，需要对分词算法有一定的了解，从而在效果优化时有能力对分词器进行调整。接下来，我们介绍几种常用的分词算法及其应用在金融中的优劣。

几种常见的分词算法

分词算法根据其核心思想主要分为两种：

第一种是基于字典的分词，先把句子按照字典切分成词，再寻找词的最佳组合方式，包括最大匹配分词算法、最短路径分词算法、基于N-Gram model的分词算法等；

第二种是基于字的分词，即由字构词，先把句子分成一个个字，再将字组合成词，寻找最优的切分策略，同时也可以转化成序列标注问题，包括生成式模型分词算法、判别式模型分词算法、神经网络分词算法等。

最大匹配分词寻找最优组合的方式是将匹配到的最长词组合在一起，主要的思路是先将词典构造成一棵Trie树（也称为字典树），Trie树由词的公共前缀构成节点，降低了存储空间的同时可以提升查找效率。

最大匹配分词将句子与Trie树进行匹配，在匹配到根结点时由下一个字重新开始进行查找。比如正向（从左至右）匹配“他说的确实在理”，得出的结果为“他／说／的确／实在／理”。如果进行反向最大匹配，则为“他／说／的／确实／在理”。

这种方式虽然可以在O(n)时间对句子进行分词，但是只单向匹配太过绝对，尤其是金融这种词汇较丰富的场景，会出现例如“交易费/用”、“报价单/位”等情况，所以除非某些词的优先级很高，否则要尽量避免使用此算法。

最短路径分词算法首先将一句话中的所有词匹配出来，构成词图（有向无环图DAG），之后寻找从起始点到终点的最短路径作为最佳组合方式，例：

我们认为图中每个词的权重都是相等的，因此每条边的权重都为1。

在求解DAG图的最短路径问题时，总是要利用到一种性质：即两点之间的最短路径也包含了路径上其他顶点间的最短路径。比如S->A->B->E为S到E到最短路径，那S->A->B一定是S到B到最短路径，否则会存在一点C使得d(S->C->B)<d(S->A->B)，那S到E的最短路径也会变为S->C->B->E，这就与假设矛盾了。利用上述的最优子结构性质，可以利用贪心算法或动态规划两种求解算法：

（1）基于Dijkstra算法求解最短路径，该算法适用于所有带权有向图，求解源节点到其他所有节点的最短路径，并可以求得全局最优解；

（2）N-最短路径分词算法，该方法是对Dijkstra算法的扩展，在每一步保存最短的N条路径，并记录这些路径上当前节点的前驱，在最后求得最优解时回溯得到最短路径。这种方法的准确率优于Dijkstra算法，但在时间和空间复杂度上都更大。

相较于最大匹配分词算法，最短路径分词算法更加灵活，可以更好地把词典中的词组合起来，能更好地解决有歧义的场景。比如上述“他说的确实在理”这句话，用最短路径算法的计算结果为“他／说／的／确实／在理”，避免了正向最大匹配的错误。但是对于词典中未存在的词基本没有识别能力，无法解决金融领域分词中的“未登录词”难点。

N-Gram（又称N元语法模型）是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关。在此种假设下，可以简化词的条件概率，进而求解整个句子出现的概率。

现实中，常用词的出现频率或者概率肯定比罕见词要大。因此，可以将求解词图最短路径的问题转化为求解最大概率路径的问题，即分词结果为“最有可能的词的组合“。

计算词出现的概率，仅有词典是不够的，还需要充足的语料，所以分词任务已经从单纯的“算法”上升到了“建模”，即利用统计学方法结合大数据挖掘，对“语言”（句子出现的概率）进行建模。

我们将基于N-gram模型所统计出的概率分布应用到词图中，可以得到词的概率图。对该词图用最短路径分词算法求解最大概率的路径，即可得到分词结果。

相较于前两种分词算法，基于N-Gram model的分词算法对词频进行了统计建模，在切分有歧义的时候力求得到全局最优值，比如在切分方案“证券/自营/业务”和“证券/自/营业/务”中，统计出“证券/自营/业务”出现的概率更大，因此结果有更高的准确率。但也依然无法解决金融场景中未登录词的问题。

生成式模型主要有隐马尔可夫模型（HMM，Hidden Markov Model）、朴素贝叶斯分类等。HMM是常用的分词模型，基于Python的jieba分词器和基于Java的HanLP分词器都使用了HMM。

HMM模型认为在解决序列标注问题时存在两种序列，一种是观测序列，即人们显性观察到的句子，另一种是隐状态序列，即观测序列的标签。假设观测序列为X，隐状态序列是Y，则因果关系为Y->X。因此要得到标注结果Y，必须对X的概率、Y的概率、P(X|Y)进行计算，即建立P(X,Y)的概率分布模型。

HMM算法可以在一定程度上解决未登录词的问题，但生成式模型的准确率往往没有接下来要谈到的判别式模型高。

判别式模型主要有感知机、支持向量机（SVM，Support Vector Machine）、条件随机场（CRF，Conditional Random Field）、最大熵模型等，其中感知机模型和CRF模型是常用的分词模型。

（1）平均感知机分词算法

感知机是一种简单的二分类线性模型，通过构造超平面，将特征空间（输入空间）中的样本分为正负两类。通过组合，感知机也可以处理多分类问题。但由于每次迭代都会更新模型的所有权重，被误分类的样本会造成很大影响，因此采用平均的方法，在处理完一部分样本后对更新的权重进行平均。

（2）CRF分词算法

CRF可以看作一个无向图模型，假设给定的标注序列为Y，观测序列为X，CRF对条件概率P(Y|X)进行定义，而不是对联合概率建模。

平均感知机算法虽然速度快，但仍不够准确。适合一些对速度要求高、对准确性要求相对不那么高的场景。CRF分词算法可以说是目前最常用的分词、词性标注和实体识别算法，它对未登陆词也有很好的识别能力，是目前在速度、准确率以及未登录词识别上综合表现最突出的算法，也是我们目前所采用的解决方案，但速度会比感知机慢一些。

在NLP中，最常用的神经网络为循环神经网络（RNN，Recurrent Neural Network），它在处理变长输入和序列输入问题中有着巨大的优势。LSTM（Long Short-Term Memory，长短期记忆网络）为RNN变种的一种，在一定程度上解决了RNN在训练过程中梯度消失和梯度爆炸的问题。

目前对于序列标注任务，业内公认效果最好的模型是BiLSTM+CRF。相比于上述其它模型，双向循环神经网络BiLSTM，可以更好地编码当前字等上下文信息，并在最终增加CRF层，核心是用Viterbi算法进行解码，以得到全局最优解，避免B,S,E这种不可能的标记结果的出现，提高准确率。

神经网络分词虽然能在准确率、未登录词识别上有更好的表现，但RNN无法并行计算，在速度上没有优势，所以该算法通常在算法研究、句子精确解析等对速度要求不高的场景下使用。

分词作为NLP底层任务之一，既简单又重要，很多时候上层算法的错误都是由分词结果导致的。因此，对于底层实现的算法工程师，不仅需要深入理解分词算法，更需要懂得如何高效地实现和调试。

而对于上层应用的算法工程师，在实际分词时，需要根据业务场景有选择地应用上述算法，比如在搜索引擎对大规模网页进行内容解析时，对分词对速度要求大于精度，而在智能问答中由于句子较短，对分词的精度要求大于速度。

⑸ 分词的定义及介绍

http://www.fullsearcher.com/n2004911134640735.asp什么是中文分词
众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我是一个学生，分词的结果是：我是一个学生。中文分词技术
中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。
现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：
1）正向最大匹配法（由左到右的方向）；
2）逆向最大匹配法（由右到左的方向）；
3）最少切分（使每一句中切出的词数最小）。
还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。
对于机械分词方法，可以建立一个一般的模型，在这方面有专业的学术论文，这里不做详细论述。
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。
3、基于统计的分词方法
从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
到底哪种分词算法的准确度更高，目前并无定论。对于任何一个成熟的分词系统来说，不可能单独依靠某一种算法来实现，都需要综合不同的算法。笔者了解，海量科技的分词算法就采用“复方分词法”，所谓复方，相当于用中药中的复方概念，即用不同的药才综合起来去医治疾病，同样，对于中文词的识别，需要多种算法来处理不同的问题。

⑹ 文本分类的6类方法

一、中文分词：

针对中文文本分类时，很关键的一个技术就是中文分词。特征粒度为词粒度远远好于字粒度，其大部分分类算法不考虑词序信息，基于字粒度的损失了过多的n-gram信息。下面简单总结一下中文分词技术:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法 [1]。

1，基于字符串匹配的分词方法：
过程：这是一种基于词典的中文分词，核心是首先建立统一的词典表，当需要对一个句子进行分词时，首先将句子拆分成多个部分，将每一个部分与字典一一对应，如果该词语在词典中，分词成功，否则继续拆分匹配直到成功。
核心：字典，切分规则和匹配顺序是核心。
分析：优点是速度快，时间复杂度可以保持在O（n）,实现简单，效果尚可；但对歧义和未登录词处理效果不佳。

2，基于理解的分词方法：基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

3，基于统计的分词方法：
过程：统计学认为分词是一个概率最大化问题，即拆分句子，基于语料库，统计相邻的字组成的词语出现的概率，相邻的词出现的次数多，就出现的概率大，按照概率值进行分词，所以一个完整的语料库很重要。
主要的统计模型有： N元文法模型（N-gram），隐马尔可夫模型（Hidden Markov Model ，HMM），最大熵模型（ME），条件随机场模型（Conditional Random Fields，CRF）等。

二、文本预处理：

1，分词：中文任务分词必不可少，一般使用jieba分词，工业界的翘楚。
2，去停用词：建立停用词字典，目前停用词字典有2000个左右，停用词主要包括一些副词、形容词及其一些连接词。通过维护一个停用词表，实际上是一个特征提取的过程，本质上是特征选择的一部分。
3，词性标注：在分词后判断词性（动词、名词、形容词、副词…），在使用jieba分词的时候设置参数

⑺ 分词算法是什么

分词算法是文本挖掘的基础，通常对整个模型的效果起着较大的决定作用。

分词算法常用的两种运行方式：

1、用户搜索及匹配。

例如：我们在网络搜索一个词 “手机回收”，那么网络会先把这个词分为手机和回收两个词这个时候呢网络会先在库中搜索手机这个词然后进行第一轮的筛选。把网页当中没有手机这个词的去除，只保留带有手机这个词的结果，之后再从已筛选出来的网页中，筛选出带有回收这个词的页面。然后在所得结果里面根据页面评分给用户进行排序。

2、网页主题计算

前面启蒙博客也讲过，网络蜘蛛只是一个机器，并不能向人一样去思考，而在处理文章的时候，网络蜘蛛则会把文章也进行分词去处理，如过文章里手机这个词出现频率比较多，也就是所说的关键词密度，那么这个页面也就会定性为手机方面的文章。

搜索引擎是通过分词算法来计算网页的，如果我们能够合理地利用分词算法进行网页布局，会让网页将会有一个很好的得分。

中文分词算法大概分为三大类：

第一类是基于字符串匹配，即扫描字符串，如果发现字符串的子串和词典中的词相同，就算匹配，比如机械分词方法。这类分词通常会加入一些启发式规则，比如“正向/反向最大匹配”，“长词优先”等。

第二类是基于统计以及机器学习的分词方法，它们基于人工标注的词性和统计特征，对中文进行建模，即根据观测到的数据(标注好的语料)对模型参数进行训练，在分词阶段再通过模型计算各种分词出现的概率，将概率最大的分词结果作为最终结果。

常见的序列标注模型有HMM和CRF。这类分词算法能很好处理歧义和未登录词问题，效果比前一类效果好，但是需要大量的人工标注数据，以及较慢的分词速度。

第三类是通过让计算机模拟人对句子的理解，达到识别词的效果，由于汉语语义的复杂性，难以将各种语言信息组织成机器能够识别的形式，目前这种分词系统还处于试验阶段。

⑻ NLP基础知识和综述

一种流行的自然语言处理库、自带语料库、具有分类，分词等很多功能，国外使用者居多，类似中文的jieba处理库

为单词序列分配概率的模型就叫做语言模型。

通俗来说， 语言模型就是这样一个模型：对于任意的词序列，它能够计算出这个序列是一句话的概率。或者说语言模型能预测单词序列的下一个词是什么。

** n-gram Language Models **

N-gram模型是一种典型的统计语言模型（Language Model，LM），统计语言模型是一个基于概率的判别模型.统计语言模型把语言（词的序列）看作一个随机事件，并赋予相应的概率来描述其属于某种语言集合的可能性。给定一个词汇集合 V，对于一个由 V 中的词构成的序列S = ⟨w1, · · · , wT ⟩ ∈ Vn，统计语言模型赋予这个序列一个概率P(S)，来衡量S 符合自然语言的语法和语义规则的置信度。用一句简单的话说，统计语言模型就是计算一个句子的概率大小的这种模型。

n-gram模型可以减轻单词序列没有在训练集中出现过而引起的问题，即数据稀疏问题

n-gram模型问题
对于n-gram模型的问题，这两页ppt说的很明白

N-gram模型基于这样一种假设，当前词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram(N=2)和三元的Tri-Gram(N=3).Bi-Gram所满足的假设是马尔科夫假设。

一般常用的N-Gram模型是Bi-Gram和Tri-Gram。分别用公式表示如下：

Bi-Gram:P(T)=p(w1|begin) p(w2|w1) p(w3|w2)***p(wn|wn-1)

Tri-Gram:P(T)=p(w1|begin1,begin2) p(w2|w1,begin1) p(w3|w2w1)***p(wn|wn-1,wn-2)

注意上面概率的计算方法：P(w1|begin)=以w1为开头的所有句子/句子总数；p(w2|w1)=w1,w2同时出现的次数/w1出现的次数。以此类推。

对于其中每项的计算举个例子：

由上可见Bi-Gram计算公式中的begin一般都是加个<s>标签。

N-gram存在的问题：

举一个小数量的例子进行辅助说明：假设我们有一个语料库（注意语料库），如下：

老鼠真讨厌，老鼠真丑，你爱老婆，我讨厌老鼠。

想要预测“我爱老”这一句话的下一个字。我们分别通过 bigram 和 trigram 进行预测。

1）通过 bigram，便是要对 P(w|老)进行计算，经统计，“老鼠”出现了3次，“老婆”出现了1次，通过最大似然估计可以求得P（鼠|老）=0.75，P（婆|老）=0.25，因此我们通过 bigram 预测出的整句话为: 我爱老鼠。

2）通过 trigram，便是要对便是要对 P(w|爱老)进行计算，经统计，仅“爱老婆”出现了1次，通过最大似然估计可以求得 P（婆|爱老）=1，因此我们通过trigram 预测出的整句话为: 我爱老婆。显然这种方式预测出的结果更加合理。

问题一：随着 n 的提升，我们拥有了更多的前置信息量，可以更加准确地预测下一个词。但这也带来了一个问题，当N过大时很容易出现这样的状况：某些n-gram从未出现过，导致很多预测概率结果为0， 这就是稀疏问题。 实际使用中往往仅使用 bigram 或 trigram 。（这个问题可以通过平滑来缓解参考： https://mp.weixin.qq.com/s/NvwB9H71JUivFyL_Or_ENA ）

问题二：同时由于上个稀疏问题还导致N-gram无法获得上下文的长时依赖。

问题三：n-gram 基于频次进行统计，没有足够的泛化能力。

n-gram总结：统计语言模型就是计算一个句子的概率值大小，整句的概率就是各个词出现概率的乘积，概率值越大表明该句子越合理。N-gram是典型的统计语言模型，它做出了一种假设，当前词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。它其中存在很多问题，再求每一个词出现的概率时，随着N的提升，能够拥有更多的前置信息量，可以使得当前词的预测更加准确，但是当N过大时会出现稀疏问题，导致很多词的概率值为0，为解决这一问题，因此常用的为bigram 或 trigram，这就导致N-gram无法获得上文的长时依赖。另一方面N-gram 只是基于频次进行统计，没有足够的泛化能力。

神经网络语言模型

2003年 Bengio 提出，神经网络语言模型( neural network language model, NNLM)的思想是提出词向量的概念，代替 ngram 使用离散变量(高维)，采用连续变量(具有一定维度的实数向量)来进行单词的分布式表示，解决了维度爆炸的问题，同时通过词向量可获取词之间的相似性。

结合下图可知它所建立的语言模型的任务是根据窗口大小内的上文来预测下一个词，因此从另一个角度看它就是一个使用神经网络编码的n-gram模型。

它是一个最简单的神经网络，仅由四层构成，输入层、嵌入层、隐藏层、输出层。（从另一个角度看它就是一个使用神经网络编码的n-gram模型）

输入是单词序列的index序列，例如单词‘这’在字典（大小为∣V∣）中的index是10，单词‘是’的 index 是23，‘测’的 index 是65，则句子“这是测试”通过‘这是测’预测‘试’，窗口大小内上文词的index序列就是 10, 23, 65。嵌入层（Embedding）是一个大小为∣V∣×K的矩阵（注意：K的大小是自己设定的，这个矩阵相当于随机初始化的词向量，会在bp中进行更新，神经网络训练完成之后这一部分就是词向量），从中取出第10、23、65行向量拼成3×K的矩阵就是Embedding层的输出了。隐层接受拼接后的Embedding层输出作为输入，以tanh为激活函数，最后送入带softmax的输出层，输出概率,优化的目标是使得待预测词其所对应的softmax值最大。

缺点：因为这是通过前馈神经网络来训练语言模型，缺点显而易见就是其中的参数过多计算量较大，同时softmax那部分计算量也过大。另一方面NNLM直观上看就是使用神经网络编码的 n-gram 模型，也无法解决长期依赖的问题。

RNNLM

它是通过RNN及其变种网络来训练语言模型，任务是通过上文来预测下一个词，它相比于NNLM的优势在于所使用的为RNN，RNN在处理序列数据方面具有天然优势， RNN 网络打破了上下文窗口的限制，使用隐藏层的状态概括历史全部语境信息，对比 NNLM 可以捕获更长的依赖，在实验中取得了更好的效果。RNNLM 超参数少，通用性更强；但由于 RNN 存在梯度弥散问题，使得其很难捕获更长距离的依赖信息。

Word2vec中的CBOW 以及skip-gram，其中CBOW是通过窗口大小内的上下文预测中心词，而skip-gram恰恰相反，是通过输入的中心词预测窗口大小内的上下文。

Glove 是属于统计语言模型，通过统计学知识来训练词向量

ELMO 通过使用多层双向的LSTM（一般都是使用两层）来训练语言模型，任务是利用上下文来预测当前词，上文信息通过正向的LSTM获得，下文信息通过反向的LSTM获得，这种双向是一种弱双向性，因此获得的不是真正的上下文信息。

GPT是通过Transformer来训练语言模型，它所训练的语言模型是单向的，通过上文来预测下一个单词

BERT通过Transformer来训练MLM这种真正意义上的双向的语言模型，它所训练的语言模型是根据上下文来预测当前词。

以上部分的详细介绍在NLP之预训练篇中有讲到

语言模型的评判指标

具体参考： https://blog.csdn.net/index20001/article/details/78884646

Perplexity可以认为是average branch factor（平均分支系数），即预测下一个词时可以有多少种选择。别人在作报告时说模型的PPL下降到90，可以直观地理解为，在模型生成一句话时下一个词有90个合理选择，可选词数越少，我们大致认为模型越准确。这样也能解释，为什么PPL越小，模型越好。
一般用困惑度Perplexity（PPL）衡量语言模型的好坏，困惑度越小则模型生成一句话时下一个词的可选择性越少，句子越确定则语言模型越好。

简单介绍
Word2vec是一种有效创建词嵌入的方法，它自2013年以来就一直存在。但除了作为词嵌入的方法之外，它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。

背景
由于任何两个不同词的one-hot向量的余弦相似度都为0，多个不同词之间的相似度难以通过onehot向量准确地体现出来。
word2vec⼯具的提出正是为了解决上⾯这个问题。它将每个词表⽰成⼀个定⻓的向量，并使得这些向量能较好地表达不同词之间的相似和类⽐关系。

word2vec模型
word2vec⼯具包含了两个模型，即跳字模型（skip-gram）和连续词袋模型（continuous bag of words，CBOW）。word2vec的input/output都是将单词作为one-hot向量来表示，我们可以把word2vec认为是词的无监督学习的降维过程。

MaxEnt 模型（最大熵模型）：可以使用任意的复杂相关特征，在性能上最大熵分类器超过了 Byaes 分类器。但是，作为一种分类器模型，这两种方法有一个共同的缺点：每个词都是单独进行分类的，标记（隐状态）之间的关系无法得到充分利用，具有马尔可夫链的 HMM 模型可以建立标记之间的马尔可夫关联性，这是最大熵模型所没有的。

最大熵模型的优点：首先，最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型；其次，最大熵统计模型可以灵活地设置约束条件，通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度；再次，它还能自然地解决统计模型中参数平滑的问题。

最大熵模型的不足：首先，最大熵统计模型中二值化特征只是记录特征的出现是否，而文本分类需要知道特征的强度，因此，它在分类方法中不是最优的;其次，由于算法收敛的速度较慢，所以导致最大熵统计模型它的计算代价较大，时空开销大;再次，数据稀疏问题比较严重。

CRF(conditional random field) 模型（条件随机场模型）：首先，CRF 在给定了观察序列的情况下，对整个的序列的联合概率有一个统一的指数模型。一个比较吸引人的特性是其为一个凸优化问题。其次，条件随机场模型相比改进的隐马尔可夫模型可以更好更多的利用待识别文本中所提供的上下文信息以得更好的实验结果。并且有测试结果表明：在采用相同特征集合的条件下，条件随机域模型较其他概率模型有更好的性能表现。

CRF 可以用于构造在给定一组输入随机变量的条件下,另一组输出随机变量的条件概率分布模型。经常被用于序列标注，其中包括词性标注，分词，命名实体识别等领域。

建一个条件随机场，我们首先要定义一个特征函数集，每个特征函数都以整个句子s，当前位置i，位置i和i-1的标签为输入。然后为每一个特征函数赋予一个权重，然后针对每一个标注序列l，对所有的特征函数加权求和，必要的话，可以把求和的值转化为一个概率值。

CRF 具有很强的推理能力，并且能够使用复杂、有重叠性和非独立的特征进行训练和推理，能够充分地利用上下文信息作为特征，还可以任意地添加其他外部特征，使得模型能够获取的信息非常丰富。

CRF 模型的不足：首先，通过对基于 CRF 的结合多种特征的方法识别英语命名实体的分析，发现在使用 CRF 方法的过程中，特征的选择和优化是影响结果的关键因素，特征选择问题的好与坏，直接决定了系统性能的高低。其次，训练模型的时间比 MaxEnt 更长，且获得的模型很大，在一般的 PC 机上无法运行。

潜在语义分析(Latent Semantic Analysis，LSA)模型
在潜在语义分析(LSA)模型首先给出了这样一个 ‘‘分布式假设” :一个单词的属性是由它所处的环境刻画的。这也就意味着如果两个单词在含义上比较接近，那么它们也会出现在相似的文本中，也就是说具有相似的上下文。
LSA模型在构建好了单词-文档矩阵之后，出于以下几种可能的原因，我们会使用奇异值分解(Singular Value Decomposition，SVD) 的方法来寻找该矩阵的一个低阶近似。

概率潜在语义分析(Probability Latent Semantic Analysis ，PLSA)模型
概率潜在语义分析(PLSA)模型其实是为了克服潜在语义分析(LSA)模型存在的一些缺点而被提出的。LSA 的一个根本问题在于，尽管我们可以把 U k 和 V k 的每一列都看成是一个话题，但是由于每一列的值都可以看成是几乎没有限制的实数值，因此我们无法去进一步解释这些值到底是什么意思，也更无法从概率的角度来理解这个模型。
PLSA模型则通过一个生成模型来为LSA赋予了概率意义上的解释。该模型假设，每一篇文档都包含一系列可能的潜在话题，文档中的每一个单词都不是凭空产生的，而是在这些潜在的话题的指引下通过一定的概率生成的。

在 PLSA 模型里面，话题其实是一种单词上的概率分布，每一个话题都代表着一个不同的单词上的概率分布，而每个文档又可以看成是话题上的概率分布。每篇文档就是通过这样一个两层的概率分布生成的，这也正是PLSA 提出的生成模型的核心思想。

PLSA 通过下面这个式子对d和 w 的联合分布进行了建模:

该模型中的 *z * 的数量是需要事先给定的一个超参数。需要注意的是，上面这个式子里面给出了 P (w, d ) 的两种表达方式，在前一个式子里， *d * 和 w 都是在给定 *z * 的前提下通过条件概率生成出来的，它们的生成方式是相似的，因此是 ‘‘对称’’ 的;在后一个式子里，首先给定 d ，然后根据 P ( z | d ) 生成可能的话题 z ，然后再根据 P (w| z ) 生成可能的单词 w，由于在这个式子里面单词和文档的生成并不相似，所以是 ‘‘非对称’’ 的。

上图给出了 PLSA 模型中非对称形式的 Plate Notation表示法。其中d表示一篇文档，z 表示由文档生成的一个话题，w 表示由话题生成的一个单词。在这个模型中， d和w 是已经观测到的变量，而z是未知的变量(代表潜在的话题)。

容易发现，对于一个新的文档而言，我们无法得知它对应的 P ( d ) 究竟是什么，因此尽管 PLSA 模型在给定的文档上是一个生成模型，它却无法生成新的未知的文档。该模型的另外的一个问题在于，随着文档数量的增加， P ( z | d ) 的参数也会随着线性增加，这就导致无论有多少训练数据，都容易导致模型的过拟合问题。这两点成为了限制 PLSA 模型被更加广泛使用的两大缺陷。

潜在狄利克雷分配(Latent Dirichlet Analysis ， LDA)模型

为了解决 PLSA 模型中出现的过拟合问题，潜在狄利克雷分配(LDA)模型被 Blei 等人提出，这个模型也成为了主题模型这个研究领域内应用最为广泛的模型。LDA就是在PLSA的基础上加层贝叶斯框架，即LDA就是PLSA的贝叶斯版本（正因为LDA被贝叶斯化了，所以才需要考虑历史先验知识，才加的两个先验参数）。

从上一节我们可以看到，在 PLSA 这个模型里，对于一个未知的新文档 d ，我们对于 P ( d ) 一无所知，而这个其实是不符合人的经验的。或者说，它没有去使用本来可以用到的信息，而这部分信息就是 LDA 中所谓的先验信息。

具体来说，在 LDA 中，首先每一个文档都被看成跟有限个给定话题中的每一个存在着或多或少的关联性，而这种关联性则是用话题上的概率分布来刻画的，这一点与 PLSA 其实是一致的。

但是在 LDA 模型中，每个文档关于话题的概率分布都被赋予了一个先验分布，这个先验一般是用稀疏形式的狄利克雷分布表示的。这种稀疏形式的狄利克雷先验可以看成是编码了人类的这样一种先验知识:一般而言，一篇文章的主题更有可能是集中于少数几个话题上，而很少说在单独一篇文章内同时在很多话题上都有所涉猎并且没有明显的重点。

此外，LDA 模型还对一个话题在所有单词上的概率分布也赋予了一个稀疏形式的狄利克雷先验，它的直观解释也是类似的:在一个单独的话题中，多数情况是少部分(跟这个话题高度相关的)词出现的频率会很高，而其他的词出现的频率则明显较低。这样两种先验使得 LDA 模型能够比 PLSA 更好地刻画文档-话题-单词这三者的关系。

事实上，从 PLSA 的结果上来看，它实际上相当于把 LDA 模型中的先验分布转变为均匀分布，然后对所要求的参数求最大后验估计(在先验是均匀分布的前提下，这也等价于求参数的最大似然估计) ，而这也正反映出了一个较为合理的先验对于建模是非常重要的。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

中文分词根据实现原理和特点，主要分为以下2个类别：

（1）基于词典分词算法
也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词。常见的基于词典的分词算法分为以下几种：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。
基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化，比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构，比如采用TRIE索引树、哈希索引等。

（2）基于统计的机器学习算法
这类目前常用的是算法是HMM、CRF（条件随机场）、SVM、深度学习等算法，比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例，基本思路是对汉字进行标注训练，不仅考虑了词语出现的频率，还考虑上下文，具备较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。

常见的分词器都是使用机器学习算法和词典相结合，一方面能够提高分词准确率，另一方面能够改善领域适应性。

随着深度学习的兴起，也出现了 基于神经网络的分词器 ，例如有人员尝试使用双向LSTM+CRF实现分词器， 其本质上是序列标注 ，所以有通用性，命名实体识别等都可以使用该模型，据报道其分词器字符准确率可高达97.5%。算法框架的思路与论文《Neural Architectures for Named Entity Recognition》类似，利用该框架可以实现中文分词，如下图所示：

首先对语料进行字符嵌入，将得到的特征输入给双向LSTM，然后加一个CRF就得到标注结果。

目前中文分词难点主要有三个：
1、分词标准 ：比如人名，在哈工大的标准中姓和名是分开的，但在Hanlp中是合在一起的。这需要根据不同的需求制定不同的分词标准。

2、歧义 ：对同一个待切分字符串存在多个分词结果。
歧义又分为组合型歧义、交集型歧义和真歧义三种类型。

一般在搜索引擎中，构建索引时和查询时会使用不同的分词算法。常用的方案是，在索引的时候使用细粒度的分词以保证召回，在查询的时候使用粗粒度的分词以保证精度。

3、新词 ：也称未被词典收录的词，该问题的解决依赖于人们对分词技术和汉语语言结构的进一步认识。

典型的文本分类过程可以分为三个步骤：
1. 文本表示（Text Representation）
这一过程的目的是把文本表示成分类器能够处理的形式。最常用的方法是向量空间模型，即把文本集表示成词－文档矩阵，矩阵中每个元素代表了一个词在相应文档中的权重。选取哪些词来代表一个文本，这个过程称为特征选择。常见的特征选择方法有文档频率、信息增益、互信息、期望交叉熵等等。为了降低分类过程中的计算量，常常还需要进行降维处理，比如LSI。
2. 分类器构建（Classifier Construction）
这一步骤的目的是选择或设计构建分类器的方法。不同的方法有各自的优缺点和适用条件，要根据问题的特点来选择一个分类器。我们会在后面专门讲述常用的方法。选定方法之后，在训练集上为每个类别构建分类器，然后把分类器应用于测试集上，得到分类结果。
3. 效果评估（Classifier Evaluation）
在分类过程完成之后，需要对分类效果进行评估。评估过程应用于测试集（而不是训练集）上的文本分类结果，常用的评估标准由IR领域继承而来，包括查全率、查准率、F1值等等。

1. Rocchio方法
每一类确定一个中心点（centroid），计算待分类的文档与各类代表元间的距离，并作为判定是否属于该类的判据。Rocchio方法的特点是容易实现，效率高。缺点是受文本集分布的影响，比如计算出的中心点可能落在相应的类别之外。

2. 朴素贝叶斯（naïve bayes）方法
将概率论模型应用于文档自动分类，是一种简单有效的分类方法。使用贝叶斯公式，通过先验概率和类别的条件概率来估计文档对某一类别的后验概率，以此实现对此文档所属类别的判断。

3. K近邻(K-Nearest Neightbers, KNN)方法
从训练集中找出与待分类文档最近的k个邻居（文档），根据这k个邻居的类别来决定待分类文档的类别。KNN方法的优点是不需要特征选取和训练，很容易处理类别数目多的情况，缺点之一是空间复杂度高。KNN方法得到的分类器是非线性分类器。

4. 支持向量机（SVM）方法
对于某个类别，找出一个分类面，使得这个类别的正例和反例落在这个分类面的两侧，而且这个分类面满足：到最近的正例和反例的距离相等，而且是所有分类面中与正例（或反例）距离最大的一个分类面。SVM方法的优点是使用很少的训练集，计算量小；缺点是太依赖于分类面附近的正例和反例的位置，具有较大的偏执。

文本聚类过程可以分为3个步骤：
1. 文本表示（Text Representation）
把文档表示成聚类算法可以处理的形式。所采用的技术请参见文本分类部分。
2. 聚类算法选择或设计（Clustering Algorithms）
算法的选择，往往伴随着相似度计算方法的选择。在文本挖掘中，最常用的相似度计算方法是余弦相似度。聚类算法有很多种，但是没有一个通用的算法可以解决所有的聚类问题。因此，需要认真研究要解决的问题的特点，以选择合适的算法。后面会有对各种文本聚类算法的介绍。
3. 聚类评估（Clustering Evaluation）
选择人工已经分好类或者做好标记的文档集合作为测试集合，聚类结束后，将聚类结果与已有的人工分类结果进行比较。常用评测指标也是查全率、查准率及F1值。

1．层次聚类方法
层次聚类可以分为两种：凝聚（agglomerative）层次聚类和划分（divisive）层次聚类。凝聚方法把每个文本作为一个初始簇，经过不断的合并过程，最后成为一个簇。划分方法的过程正好与之相反。层次聚类可以得到层次化的聚类结果，但是计算复杂度比较高，不能处理大量的文档。

2．划分方法
k-means算法是最常见的划分方法。给定簇的个数k，选定k个文本分别作为k个初始簇，将其他的文本加入最近的簇中，并更新簇的中心点，然后再根据新的中心点对文本重新划分；当簇不再变化时或经过一定次数的迭代之后，算法停止。k-means算法复杂度低，而且容易实现，但是对例外和噪声文本比较敏感。另外一个问题是，没有一个好的办法确定k的取值。

3．基于密度的方法
为了发现任意形状的聚类结果，提出了基于密度的方法。这类方法将簇看作是数据空间中被低密度区域分割开的高密度区域。常见的基于密度的方法有DBSCAN, OPTICS, DENCLUE等等。

4．神经网络方法
神经网络方法将每个簇描述为一个标本，标本作为聚类的"原型"，不一定对应一个特定的数据,根据某些距离度量，新的对象被分配到与其最相似的簇中。比较着名的神经网络聚类算法有:竞争学习（competitive learing）和自组织特征映射（self-organizing map）[Kohonen, 1990]。神经网络的聚类方法需要较长的处理时间和复杂的数据复杂性，所以不适用于大型数据的聚类。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：991

制作脚本网站发布：2025-10-20 08:17:34 浏览：1266

python中的init方法发布：2025-10-20 08:17:33 浏览：950

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1128

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：999

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1352

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：566

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：460

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1131

python股票数据获取发布：2025-10-20 07:39:44 浏览：1121

基于词典的分词算法

与基于词典的分词算法相关的资讯