中文题名: | 词语相似度判断及其算法研究 |
姓名: | |
保密级别: | 公开 |
学科代码: | 120102 |
学科专业: | |
学生类型: | 学士 |
学位: | 管理学学士 |
学位年度: | 2011 |
学校: | 北京师范大学 |
校区: | |
学院: | |
第一导师姓名: | |
提交日期: | 2011-06-13 |
答辩日期: | 2011-05-16 |
中文关键词: | |
中文摘要: |
词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于语义资源和基于统计两类方法,前者利用人工构建的语义词典或语义网络计算相似度,而后者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度。通过分析比较前人研究成果,发现基于统计的方法比较客观,但依赖于训练所用的语料库,受数据稀疏和数据噪声的干扰较大。基于语义资源的方法简单有效,但得到的结果受人的主观意识影响较大。若将基于统计和基于语义资源的方法结合起来,发挥两种算法各自的优势进行词汇间语义相似度的计算,可以弥补各自算法的不足,得到更加符合人们客观认知的相似度计算结果。本文比较分析了两类词语相似度算法,并总结了各自的特点和不足之处,详细介绍了基于互信息与词语关联分布的相似度算法和基于知网的算法,在此基础上,提出了一种语义与统计相结合的词语相似度算法,利用《人民日报》(1998年1月)语料库,使用LJCorpus软件进行分词和词频统计,实验结果验证了该方法的有效性,比较符合人们的预期。
﹀
|
插图总数: | 0 |
插表总数: | 0 |
馆藏号: | 本110102/1108 |
开放日期: | 2011-06-13 |