期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于语料库和网络的新词自动识别 被引量:11
1
作者 刘建舟 何婷婷 骆昌日 《计算机应用》 CSCD 北大核心 2004年第7期132-134,共3页
汉语自动分词是进行中文信息处理的基础。目前 ,困扰汉语自动分词的一个主要难题就是新词自动识别 ,尤其是非专名新词的自动识别。同时 ,新词自动识别对于汉语词典的编纂也有着极为重要的意义。文中提出了一种新的新词自动识别的方法。... 汉语自动分词是进行中文信息处理的基础。目前 ,困扰汉语自动分词的一个主要难题就是新词自动识别 ,尤其是非专名新词的自动识别。同时 ,新词自动识别对于汉语词典的编纂也有着极为重要的意义。文中提出了一种新的新词自动识别的方法。这个方法用到了互信息和log likelihoodratio两个参数的改进形式。主要分三个阶段完成 :先从网络上下载丰富的语料 ,构建语料库 ;然后采用统计的方法进行多字词识别 ;最后与已有的词表进行对照 ,判定新词。 展开更多
关键词 抽取多字词 页面解析 动态语料库
在线阅读 下载PDF
网络化制造资源垂直搜索引擎的研究与应用 被引量:6
2
作者 张建 程锦 《计算机应用》 CSCD 北大核心 2007年第5期1116-1118,共3页
着重研究了网络化制造资源垂直搜索系统的主题爬虫和中文分词技术。通过在主题爬虫中增加评价网页模块,优先爬行与主题相似度高的网页中的链接,提高了爬虫的工作效率。在对中文分词词典进行分层存储的基础上,通过一种改进的简洁的中文... 着重研究了网络化制造资源垂直搜索系统的主题爬虫和中文分词技术。通过在主题爬虫中增加评价网页模块,优先爬行与主题相似度高的网页中的链接,提高了爬虫的工作效率。在对中文分词词典进行分层存储的基础上,通过一种改进的简洁的中文分词词典匹配算法,有效地改善了分词的速度与精度,并缩减了索引库,增强了用户的响应。 展开更多
关键词 网络化制造 制造资源 垂直搜索引擎 页面解析
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部