期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
Web汉语料的智能抽取与词汇切分 被引量:4
1
作者 陈展荣 曾毅平 《计算机工程与设计》 CSCD 北大核心 2005年第6期1422-1424,共3页
提出一种Web汉语料智能抽取和汉语词切分的包装器。用户无需打开网站,无需点击链接,只需键入URL(UnitResourceLocation,统一资源定位符),即可获取Web汉语料并切分词到汉词库中。给出了系统的总体构架,阐述了各功能模块的设计原理和技术... 提出一种Web汉语料智能抽取和汉语词切分的包装器。用户无需打开网站,无需点击链接,只需键入URL(UnitResourceLocation,统一资源定位符),即可获取Web汉语料并切分词到汉词库中。给出了系统的总体构架,阐述了各功能模块的设计原理和技术实现。测试结果表明,该包装器能快速、有效地抓取Web页面并分离其中的汉语料,对歧义句、新词汇的识别率分别达到70%和60%,可应用于Web上汉语词汇的收集与分离。 展开更多
关键词 web语料 HTML格式 包装 web页面抓取器 词汇分离
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部