期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于网页格式信息量的博客文章和评论抽取模型 被引量:15
1
作者 曹冬林 廖祥文 +1 位作者 许洪波 白硕 《软件学报》 EI CSCD 北大核心 2009年第5期1282-1291,共10页
从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算... 从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算最小切分位置信息量来切分正文中的文章和评论.该模型具有与语言无关的特点,因此具有一定的通用性.实验结果表明,该模型在博客正文定位和正文切分方面达到了较高的精确率. 展开更多
关键词 博客信息抽取 最小正文子树 有效信息 网页格式信息 视觉信息 切分位置信息
在线阅读 下载PDF
面向文本数字化的自动纠错方法 被引量:3
2
作者 陈翔 徐平先 张玉志 《计算机应用研究》 CSCD 北大核心 2008年第5期1434-1436,共3页
为了提高文本数字化系统的质量,针对该系统的错误特点,采用频率统计树构建查错模型,结合切分信息进行标点纠错,通过表形码和缓存集给出纠错建议,提出了规则与统计结合的自动纠错方法。实验结果表明,该方法召回率为84.65%,准确率为78.89%... 为了提高文本数字化系统的质量,针对该系统的错误特点,采用频率统计树构建查错模型,结合切分信息进行标点纠错,通过表形码和缓存集给出纠错建议,提出了规则与统计结合的自动纠错方法。实验结果表明,该方法召回率为84.65%,准确率为78.89%,误判率为9.07%,能够满足数字化系统需求。 展开更多
关键词 自动纠错 文本数字化 频率统计树 切分信息 表形码
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部