中文题名: | 以大规模语料库为基础的关系空间词向量研究 |
姓名: | |
保密级别: | 公开 |
论文语种: | 中文 |
学科代码: | 120101 |
学科专业: | |
学生类型: | 学士 |
学位: | 管理学学士 |
学位年度: | 2018 |
学校: | 北京师范大学 |
校区: | |
学院: | |
第一导师姓名: | |
第一导师单位: | |
提交日期: | 2018-06-27 |
答辩日期: | 2018-05-14 |
中文关键词: | |
中文摘要: |
大规模语料库是计算机技术和深度学习理论进步相结合的新产物,使用 word2vec 技术、GloVe 技术构建的语料库是以高维词向量为基本存储单元和最小 分析粒度的绝佳材料,反映了语言学的各种语义关系和多特征的语义信息。本文 利用 GloVe 的开源语料库的高维词向量,构造了高质量高频词差向量空间,并对 其空间特征和基本实例进行了探索。本文完成了对高维差向量空间的降维可视 化,引入了 KNN 搜索方法,并使用蒙特卡罗方法寻找高维空间的高密度区域。
﹀
|
外文摘要: |
The large-scale corpus is a new product of the combination of computer technology and deep- learning theory. The corpus constructed by word2vec technology and glove technology is an excellent material for high-dimensional word vectors as the basic storage unit and the minimum analysis granu- larity. Corpus reflects the language semantic relations and semantic information of multiple features. This paper makes good use of the high-dimensional word vector of open source corpus of glove to construct a high-quality and high-frequency word difference vector space, and explores its spatial characteristics and basic examples. This paper completes the downscaling visualization of the high- dimensional difference space, introduces the KNN search method, and uses the Monte Carlo method to find high-density areas in the high-dimensional space.
﹀
|
参考文献总数: | 15 |
作者简介: | 田亦庄,男,北京师范大学政府管理学院2014级本科生,管理学学士。 |
插图总数: | 18 |
插表总数: | 2 |
馆藏号: | 本120101/18027 |
开放日期: | 2019-07-09 |