期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于标签路径特征融合的在线Web新闻内容抽取 被引量:23
1
作者 吴共庆 胡骏 +4 位作者 李莉 徐喆昊 刘鹏程 胡学钢 吴信东 《软件学报》 EI CSCD 北大核心 2016年第3期714-735,共22页
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例... 精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法 CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在Clean Eval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法. 展开更多
关键词 内容抽取 WEB新闻 标签路径特征 组合特征选择 特征融合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部