-
题名一种高效的中文电子词表数据结构
被引量:26
- 1
-
-
作者
陈桂林
王永成
韩客松
王刚
-
机构
上海交通大学网络信息中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2000年第1期109-116,共8页
-
基金
国家"八六三"计划基金项目!(项目编号863-306-ZD03-04-1)
-
文摘
在分析中文字编码体系、中文词一些特点的基础上,文中提出了一种新的中文电子词表数据结构,并讨论了利用首字Hash 加二分查找的数据查找算法以及相关的数据更新、删除和插入算法. 理论分析和试验结果表明。
-
关键词
中文信息处理
中文电子词表
数据结构
计算机
-
Keywords
Chinese electronic thesaurus, hash, B + trees, binary search
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的快速分词算法
被引量:56
- 2
-
-
作者
陈桂林
王永成
韩客松
王刚
-
机构
上海交通大学网络信息中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2000年第4期418-424,共7页
-
基金
国家"八六三"高技术研究发展计划基金资助!(项目编号 863 -ZD0 3 -0 4-1)
-
文摘
首先介绍了一种高效的中文电子词表数据结构 ,它支持首字 Hash和标准的二分查找 ,且不限词条长度 ;然后提出了一种改进的快速分词算法 ,在快速查找两字词的基础上 ,利用近邻匹配方法来查找多字词 ,明显提高了分词效率 .理论分析表明 ,该分词算法的时间复杂度为 1.6 6 ,在速度方面 。
-
关键词
分词
中文信息处理
算法
中文电子词表
计算机
-
Keywords
word segmentation, hash, binary search, neighborhood matching, time complexity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-