-
题名基于语料库和网络的新词自动识别
被引量:11
- 1
-
-
作者
刘建舟
何婷婷
骆昌日
-
机构
华中师范大学计算机科学系
-
出处
《计算机应用》
CSCD
北大核心
2004年第7期132-134,共3页
-
基金
湖北省自然科学基金资助项目 (2 0 0 1ABB0 1 2 )
-
文摘
汉语自动分词是进行中文信息处理的基础。目前 ,困扰汉语自动分词的一个主要难题就是新词自动识别 ,尤其是非专名新词的自动识别。同时 ,新词自动识别对于汉语词典的编纂也有着极为重要的意义。文中提出了一种新的新词自动识别的方法。这个方法用到了互信息和log likelihoodratio两个参数的改进形式。主要分三个阶段完成 :先从网络上下载丰富的语料 ,构建语料库 ;然后采用统计的方法进行多字词识别 ;最后与已有的词表进行对照 ,判定新词。
-
关键词
抽取多字词
页面解析
动态语料库
-
Keywords
multi word unit extraction
page parsing
dynamic corpus
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名网络化制造资源垂直搜索引擎的研究与应用
被引量:6
- 2
-
-
作者
张建
程锦
-
机构
武汉理工大学经济学院
贵州大学CAD/CIMS工程技术中心
-
出处
《计算机应用》
CSCD
北大核心
2007年第5期1116-1118,共3页
-
基金
国家自然科学基金资助项目(5047185)
-
文摘
着重研究了网络化制造资源垂直搜索系统的主题爬虫和中文分词技术。通过在主题爬虫中增加评价网页模块,优先爬行与主题相似度高的网页中的链接,提高了爬虫的工作效率。在对中文分词词典进行分层存储的基础上,通过一种改进的简洁的中文分词词典匹配算法,有效地改善了分词的速度与精度,并缩减了索引库,增强了用户的响应。
-
关键词
网络化制造
制造资源
垂直搜索引擎
页面解析
-
Keywords
networked manufacturing
manufacturing resource
vertical search engine
, html parser
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-