-
题名中文搜索引擎中的分词技术研究
被引量:9
- 1
-
-
作者
房志峰
-
机构
山东政法学院信息科学技术系
-
出处
《科学技术与工程》
2008年第9期2481-2483,2506,共4页
-
文摘
分词模块是中文搜索引擎的一个重要组成部分,针对分词提出了一种最短路径与共首字歧义词概率的比较相结合的方法,首先寻找最短路径。如果最短路径不只一条,就比较共首字歧义词概率,选择概率较大的一条路径,效果非常明显。对未登录词识别提出了一种改进的移动窗口算法,在单字序列中移动窗口,并记录状态来寻找新词,能够识别大部分的未登录词。
-
关键词
中文分词
未登录词识别
最短路径
共首字歧义词概率
窗口移动法
-
Keywords
Chinese Segmentation unknown words recognition the shortest path the ambiguitywords' probability which has the same first word sliding-window method
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-