- 无标题文档
查看论文信息

中文题名:

 基于Lucene的中文全文检索系统分词技术探讨    

姓名:

 龚昊    

保密级别:

 公开    

学科代码:

 120102    

学科专业:

 信息管理与信息系统    

学生类型:

 学士    

学位:

 管理学学士    

学位年度:

 2013    

学校:

 北京师范大学    

校区:

 北京校区培养    

学院:

 管理学院    

第一导师姓名:

 靖培栋    

第一导师单位:

 北京师范大学管理学院信息管理系    

提交日期:

 2013-05-29    

答辩日期:

 2013-05-29    

外文题名:

 The word segmentation research of Chinese text retrieval system based in Lucene    

中文关键词:

 全文索引 ; 全文检索 ; lucene中文分词    

中文摘要:
本文主要讲述全文检索系统——lucene的相关内容以及其在中文分词方面的不足及相关改进意见。Lucene是一个高效的、基于Java的全文检索库。我们所谓的数据总体分为两类:结构化数据以及非结构化数据。将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的,就是全文检索的思想原理。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。这种先建立索引,再对索引进行搜索的过程就叫全文检索。Lucene不是一个完整的全文检索系统,而是一个用Java写的全文索引引擎工具包。 由于中文语言与英文语言在体系及结构方面的不同,比如:英文单词以空格切分,中文词语由单个汉字按一定的规则组成;中文汉字与英文字母在标准编码规则上有所不同;英文单词基本上形式固定,中文词语的组成却随着不同的情况而变化等等。所以中文分词是检索系统的一个难点,Lucene有其自己的中文分析器,其中主要是ChineseAnalyzer和CJKAnalyzer两个中文分析器,Lucene自带的两种中文分析器,对于中文分词效果并不明显,不能满足系统对中文的分词。通过对第三方分词器的介绍以及国内武汉大学信息管理学院开发的中文分词工具的使用,更突显lucene中文分词功能需要完善的必要。
外文摘要:
This paper focuses on the full-text retrieval system Lucene’s introduction as well as its deficiencies and related improvements in the Chinese word Segmentation. Lucene is an efficient, Java-based full-text search library. We divided the data into two categories: structured data and unstructured data. Part of information from unstructured data is extracted, re-organize, so that it becomes a certain structure, then there is a search in the certain structure of the data, so as to achieve the purpose of relatively fast search, This is the full-text index of ideological principle. We call this part information the index. The first indexing process called full-text search index. Lucene is not a complete full-text retrieval system, but a full-text index engine toolkit written in Java. It’s different between Chinese Language and English Language in the system and the structure.Chinese word segmentation is a difficult point in retrieval system, Lucene has its own Chinese analyzer, ChineseAnalyzer, and CJKAnalyzer, the effect of this two Chinese analyzers for Chinese word segmentation is not obvious, that cannot meet the demand of the system for the Chinese word. Through the Contrast by the other Chinese word segmentation, we should highlight the function of Chinese word segmentation of lucene
参考文献总数:

 14    

插图总数:

 3    

插表总数:

 1    

馆藏号:

 本110102/1302    

开放日期:

 2013-07-31    

无标题文档

   建议浏览器: 谷歌 360请用极速模式,双核浏览器请用极速模式