-
题名基于网页格式信息量的博客文章和评论抽取模型
被引量:15
- 1
-
-
作者
曹冬林
廖祥文
许洪波
白硕
-
机构
中国科学院计算技术研究所网络科学与技术研究部
中国科学院研究生院
厦门大学智能科学系
-
出处
《软件学报》
EI
CSCD
北大核心
2009年第5期1282-1291,共10页
-
基金
国家重点基础研究发展计划(973)Nos.2004CB318109,2007CB311100
国家高技术研究发展计划(863)No.2007AA01Z441~~
-
文摘
从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算最小切分位置信息量来切分正文中的文章和评论.该模型具有与语言无关的特点,因此具有一定的通用性.实验结果表明,该模型在博客正文定位和正文切分方面达到了较高的精确率.
-
关键词
博客信息抽取
最小正文子树
有效信息率
网页格式信息
视觉信息
切分位置信息量
-
Keywords
blog information extraction, minimal main text subtree
effective information ratio
Web format information
vision information
information quantity of separate position
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向文本数字化的自动纠错方法
被引量:3
- 2
-
-
作者
陈翔
徐平先
张玉志
-
机构
中国科学院计算技术研究所
点通数据有限公司
-
出处
《计算机应用研究》
CSCD
北大核心
2008年第5期1434-1436,共3页
-
基金
国家“863”计划重点资助项目(2006AA010101)
科技部中小企业创新基金资助项目(04C26214420751)
-
文摘
为了提高文本数字化系统的质量,针对该系统的错误特点,采用频率统计树构建查错模型,结合切分信息进行标点纠错,通过表形码和缓存集给出纠错建议,提出了规则与统计结合的自动纠错方法。实验结果表明,该方法召回率为84.65%,准确率为78.89%,误判率为9.07%,能够满足数字化系统需求。
-
关键词
自动纠错
文本数字化
频率统计树
切分信息
表形码
-
Keywords
automatic proofreading
texts digitization
frequency statistical tree
segmentation information
Biao-Xing code
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-