中文题名: | 基于双向匹配中文分词的歧义消除方法 |
姓名: | |
保密级别: | 公开 |
论文语种: | 中文 |
学科代码: | 025200 |
学科专业: | |
学生类型: | 硕士 |
学位: | 应用统计硕士 |
学位类型: | |
学位年度: | 2021 |
校区: | |
学院: | |
研究方向: | 应用统计 |
第一导师姓名: | |
第一导师单位: | |
提交日期: | 2021-05-28 |
答辩日期: | 2021-06-23 |
外文题名: | DISAMBIGUATION METHOD BASED ON TWO-WAY MATCHING CHINESE WORD SEGMENTATION |
中文关键词: | |
外文关键词: | Chinese word segmentation ; mutual information ; t-test ; RMM ; FMM |
中文摘要: |
本文针对中文分词难点之一——歧义问题做出了研究,在互信息以及 t-测试差的基础上提出了 MIDT 统计量,利用正向最大匹配和逆向最大匹配算法进行歧义识别,MIDT 统计量进行歧义的划分。本文首先介绍了中文分词的意义以及国内的研究现状,然后简要阐述了基于词典的分词算法、基于统计的分词算法以基于理解的分词算法。进而,我们提出 MIDT 统计量和双向 MIDT 分词方法,在Bakeoff 语料库上进行实验,选定了最优的权重系数以及切分次数,然后与 RMM和 jieba 分词方法进行对比,经过实验可以发现本文所提出的分词算法能够取得较高的精度和较快的分词速度,不失为一种良好的机械分词算法。
﹀
|
外文摘要: |
This article focuses on one of the difficulties of Chinese word segmentation: the ambiguity problem. The MIDT statistics are proposed based on mutual information and t-test differences. The forward maximum matching and reverse maximum matching algorithms are used for ambiguity recognition, and MIDT statistics are used for Division of ambiguity. This article first introduces the meaning of Chinese word segmentation and the current research status in China, and then briefly explains the word segmentation algorithm based on dictionary, the word segmentation algorithm based on statistics and the word segmentation algorithm for understanding. Furthermore, we proposed MIDT statistics and two-way MIDT word segmentation methods, compared with RMM and jieba word segmentation methods, and achieved good results.
﹀
|
参考文献总数: | 38 |
馆藏号: | 硕025200/21004 |
开放日期: | 2022-06-23 |