- 无标题文档
查看论文信息

中文题名:

 以大规模语料库为基础的关系空间词向量研究    

姓名:

 田亦庄    

保密级别:

 公开    

论文语种:

 中文    

学科代码:

 120101    

学科专业:

 管理科学    

学生类型:

 学士    

学位:

 管理学学士    

学位年度:

 2018    

学校:

 北京师范大学    

校区:

 北京校区培养    

学院:

 政府管理学院    

第一导师姓名:

 张江    

第一导师单位:

 北京师范大学系统科学学院    

提交日期:

 2018-06-27    

答辩日期:

 2018-05-14    

中文关键词:

 高维空间数据 ; 差向量空间 ; GloVe ; t-SNE ; KNN ; 蒙特卡罗方法    

中文摘要:
大规模语料库是计算机技术和深度学习理论进步相结合的新产物,使用 word2vec 技术、GloVe 技术构建的语料库是以高维词向量为基本存储单元和最小 分析粒度的绝佳材料,反映了语言学的各种语义关系和多特征的语义信息。本文 利用 GloVe 的开源语料库的高维词向量,构造了高质量高频词差向量空间,并对 其空间特征和基本实例进行了探索。本文完成了对高维差向量空间的降维可视 化,引入了 KNN 搜索方法,并使用蒙特卡罗方法寻找高维空间的高密度区域。
外文摘要:
The large-scale corpus is a new product of the combination of computer technology and deep- learning theory. The corpus constructed by word2vec technology and glove technology is an excellent material for high-dimensional word vectors as the basic storage unit and the minimum analysis granu- larity. Corpus reflects the language semantic relations and semantic information of multiple features. This paper makes good use of the high-dimensional word vector of open source corpus of glove to construct a high-quality and high-frequency word difference vector space, and explores its spatial characteristics and basic examples. This paper completes the downscaling visualization of the high- dimensional difference space, introduces the KNN search method, and uses the Monte Carlo method to find high-density areas in the high-dimensional space.
参考文献总数:

 15    

作者简介:

 田亦庄,男,北京师范大学政府管理学院2014级本科生,管理学学士。    

插图总数:

 18    

插表总数:

 2    

馆藏号:

 本120101/18027    

开放日期:

 2019-07-09    

无标题文档

   建议浏览器: 谷歌 360请用极速模式,双核浏览器请用极速模式