lp分词(lpi汉语分词系统怎么用)

导语：自然语言处理NLP之分词

1. 分词的含义

分词就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作。

2.分词的原因

①将复杂问题转化为数学问题

②词是一个比较合适的粒度

③深度学习时代，部分任务中也可以「分字」

深度学习时代，随着数据量和算力的爆炸式增长，很多传统的方法被颠覆。

3. 中英文分词的3个典型区别

①分词方式不同，中文更难

英文有天然的空格作为分隔符，但是中文没有。所以如何切分是一个难点，再加上中文里一词多意的情况非常多，导致很容易出现歧义。

②英文单词有多种形态，需要词形还原和词干提取

词形还原：does，done，doing，did 需要通过词形还原恢复成 do。

词干提取：cities，children，teeth 这些词，需要转换为 city，child，tooth

③中文分词需要考虑粒度问题

例如「中国科学技术大学」就有很多种分法：

中国科学技术大学

中国 \ 科学技术 \ 大学

中国 \ 科学 \ 技术 \ 大学

粒度越大，表达的意思就越准确，但是也会导致召回比较少。所以中文需要不同的场景和要求选择不同的粒度。这个在英文中是没有的。

4. 中文分词的3大难点

①没有统一的标准

②歧义词如何切分

例如「兵乓球拍卖完了」就有2种分词方式表达了2种不同的含义：

-乒乓球 \ 拍卖 \ 完了

-乒乓 \ 球拍 \ 卖 \ 完了

③新词的识别

信息爆炸的时代，三天两头就会冒出来一堆新词，如何快速的识别出这些新词是一大难点。

5. 3个典型的分词方式

①基于词典匹配

基本思想是基于词典匹配，将待分词的中文文本根据一定规则切分和调整，然后跟词典中的词语进行匹配，匹配成功则按照词典的词分词，匹配失败通过调整或者重新选择，如此反复循环即可。代表方法有基于正向最大匹配和基于逆向最大匹配及双向匹配法。

优点：速度快、成本低

缺点：适应性不强，不同领域效果差异大

②基于统计

这类目前常用的是算法是HMM、CRF、SVM、深度学习等算法，比如stanford、Hanlp分词工具是基于CRF算法。

以CRF为例，基本思路是对汉字进行标注训练，不仅考虑了词语出现的频率，还考虑上下文，具备较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。

优点：适应性较强

缺点：成本较高，速度较慢

③基于深度学习

例如有人员尝试使用双向LSTM+CRF实现分词器，其本质上是序列标注，所以有通用性，命名实体识别等都可以使用该模型，据报道其分词器字符准确率可高达97.5%。

优点：准确率高、适应性强

缺点：成本高，速度慢

常见的分词器都是使用机器学习算法和词典相结合，一方面能够提高分词准确率，另一方面能够改善领域适应性。

6. 中文分词工具

7. 英文分词工具

免责声明:本站部份内容由优秀作者和原创用户编辑投稿，本站仅提供存储服务，不拥有所有权,不承担法律责任。若涉嫌侵权/违法的，请反馈，一经查实立刻删除内容。本文内容由快快网络小姬创作整理编辑！