期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
维吾尔文网页正文抽取系统的研究与实现 被引量:3
1
作者 蔡李 单艳 +1 位作者 薛化建 苏国平 《计算机工程与设计》 CSCD 北大核心 2012年第2期551-555,共5页
从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过... 从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。 展开更多
关键词 维吾尔文 网页正文抽取 语料库 文本句长特征 WEB文本挖掘
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部