-
题名基于字表的中文搜索引擎分词系统的设计与实现
被引量:15
- 1
-
-
作者
丁承
邵志清
-
机构
华东理工大学计算机科学与工程系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第2期191-192,F003,共3页
-
文摘
分析了常用的基于词典的汉语分词方法应用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引、查询、排除歧义等方面进行了设计和实现。
-
关键词
字表
中文搜索引擎分词系统
设计
中文信息处理
INTERNET
-
Keywords
chinese;search engines;word segmentation;character table;query
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名一种适用于专业搜索引擎的中文分词系统研究
被引量:4
- 2
-
-
作者
王硕
尤枫
山岚
赵恒永
-
机构
北京化工大学信息科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第19期142-145,共4页
-
文摘
在对现有中文分词技术研究的基础上,提出了一种应用于化工专业领域的中文分词系统,先后介绍了首字哈希结合二分查找的词典机制,以及结合路径选择机制而改进了的层进式最短路径切词算法,并经过实验分析,在保证切分效率的同时,在一定程度上达到了消除歧义的效果。
-
关键词
中文分词
搜索引擎
首字哈希
层进式最短路径
路径选择
-
Keywords
chinese word segmentation
search engine
first character Hash indexing
level-pattern shortest paths
paths selection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于Lucene的影片搜索引擎的研究和应用
被引量:3
- 3
-
-
作者
匡振国
倪宏
嵇智辉
刘磊
-
机构
中国科学院研究生院
中国科学院声学研究所国家网络新媒体工程技术研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第29期8-10,30,共4页
-
基金
国家科技支撑计划项目(No.2008BAH28B04)
中科院声学研究所创新前瞻项目(No.GS12CXJ01)
-
文摘
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。
-
关键词
LUCENE
搜索引擎
双字哈希
中文分词
倒排索引
-
Keywords
Lucene
search engine
double character hash index
chinese word segmentation
inverted index
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-