期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于SVM与DOM重心半径模型的Web正文提取 被引量:3
1
作者 易国洪 代瑜 +1 位作者 冯智莉 黎慧源 《计算机工程》 CAS CSCD 北大核心 2019年第6期206-210,共5页
为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法。通过SVM对网页DOM节点集进行提取,得出文本块节点。根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并... 为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法。通过SVM对网页DOM节点集进行提取,得出文本块节点。根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并给出相应的公式推导和超参数选取过程。实验结果表明,与统计抽取、FFT抽取等算法相比,该算法的准确率和提取效率较高,泛化能力较好。 展开更多
关键词 支持向量机 特征向量 重心半径 网页 正文提取
在线阅读 下载PDF
基于结构与内容的Web主要信息提取方法研究
2
作者 张文东 李伟 《计算机工程与设计》 CSCD 北大核心 2008年第24期6210-6212,共3页
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发... Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息。 展开更多
关键词 web页面 内容 结构 分块 信息提取
在线阅读 下载PDF
基于布局相似性的网页正文内容提取研究 被引量:10
3
作者 杨柳青 李晓东 耿光刚 《计算机应用研究》 CSCD 北大核心 2015年第9期2581-2586,共6页
合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性... 合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性的网页正文提取方法,即通过比对来自同一网站同一专题的网页DOM树中节点数据信息的相似性来实现正文提取,并对相关问题进行了尝试性的研究和实现。实验证明该方法思路简单、实用性强、普适性好,在满足较高准确率的同时,能为众多互联网内容分析应用提供支撑。 展开更多
关键词 布局相似性 网页正文提取 信息检索
在线阅读 下载PDF
基于网页转载关系判别的网络舆情传播态势分析 被引量:4
4
作者 王君泽 曾润喜 杜洪涛 《情报杂志》 CSSCI 北大核心 2015年第1期144-149,共6页
网络舆情分析工作中的一项关键任务是识别新闻之间的多次转载关系,进而确定目标事件舆情在互联网上的分布状况和传播范围。基于网页主题内容抽取、新闻转载关系初筛,以及基于核函数的相似度计算等环节,判别新闻报道之间的转载关系,并对... 网络舆情分析工作中的一项关键任务是识别新闻之间的多次转载关系,进而确定目标事件舆情在互联网上的分布状况和传播范围。基于网页主题内容抽取、新闻转载关系初筛,以及基于核函数的相似度计算等环节,判别新闻报道之间的转载关系,并对转载识别效果进行检验,构建了基于网页转载关系判别的网络舆情传播态势分析模型,有助于对敏感事件的网络舆情进行针对性的引导和控制。 展开更多
关键词 网络舆情 转载网页 主题抽取 核函数 舆情传播 舆情研判
在线阅读 下载PDF
分块布局下的主题型网页的内容抽取 被引量:3
5
作者 聂卉 张津华 《情报学报》 CSSCI 北大核心 2012年第1期31-39,共9页
本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法。算法首先分析原始网页的DOM结构生成标签树,再根据标签分类和对应节点的信息对标签树自底向上进行划分,并依据划分块的文... 本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法。算法首先分析原始网页的DOM结构生成标签树,再根据标签分类和对应节点的信息对标签树自底向上进行划分,并依据划分块的文字密度,链接密度及图片密度,分类信息块。进一步,提炼网页主题的文本特征向量,采用基于词条空间的文本相似度计算,获取划分块的主题相关度,以主题相关度为量化基准剔除噪声,识别网页主旨内容,重构页面描述。这一算法被应用于面向人才资讯的信息采集项目中,实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。 展开更多
关键词 网页内容抽取 网页分块 网页去噪
在线阅读 下载PDF
结合网页结构与文本特征的正文提取方法 被引量:15
6
作者 熊忠阳 蔺显强 +1 位作者 张玉芳 牙漫 《计算机工程》 CAS CSCD 2013年第12期200-203,210,共5页
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去... 网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 展开更多
关键词 正文提取 网页去噪 网页分块 主题爬行 信息检索 web挖掘
在线阅读 下载PDF
基于扩展标记树的网页正文抽取 被引量:2
7
作者 夏天 《广西师范大学学报(自然科学版)》 CAS 北大核心 2011年第1期133-137,共5页
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,... 本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。 展开更多
关键词 网页正文抽取 扩展标记树 近邻优先遍历
在线阅读 下载PDF
网页内容安全快速信息抽取方法 被引量:6
8
作者 张驰 罗森林 《信息网络安全》 2012年第10期20-22,共3页
文章提出一种基于静态网页特征的文本信息抽取方法。该方法首先根据静态网页的URL特征判断其是否是静态网页,然后根据静态网页的结构特征和内容特征对标题和正文文本内容进行抽取,再按照统一规范将结果顺序存储便于再处理。实验结果表明... 文章提出一种基于静态网页特征的文本信息抽取方法。该方法首先根据静态网页的URL特征判断其是否是静态网页,然后根据静态网页的结构特征和内容特征对标题和正文文本内容进行抽取,再按照统一规范将结果顺序存储便于再处理。实验结果表明,网页内容信息抽取的查全率和查准率分别为96.2%和95.9%,该方法计算量小、抽取速度快、正确率高,可实际应用于大规模的网页内容安全分析。 展开更多
关键词 信息抽取 网页内容 静态网页 文本信息
在线阅读 下载PDF
基于网页分块的正文信息提取方法 被引量:13
9
作者 黄玲 陈龙 《计算机应用》 CSCD 北大核心 2008年第S2期326-328,共3页
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中... 网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。 展开更多
关键词 web信息抽取 主题内容块 网页正文信息
在线阅读 下载PDF
基于内容的网页特征提取 被引量:9
10
作者 张义忠 赵明生 朱精南 《计算机工程与应用》 CSCD 北大核心 2001年第10期1-3,共3页
文章主要研究基于内容的中文网页的特征提取技术,具体介绍了分词词典的建造方法,网页正文、标记信息和超链信息的特征提取。通过对旅游类网页的实验结果显示,文中的方法和应用效果良好。
关键词 网页特征提取 信息检索 数据库 信息资源 知识库
在线阅读 下载PDF
基于分块的网页主题文本抽取 被引量:5
11
作者 任玉 樊勇 郑家恒 《广西师范大学学报(自然科学版)》 CAS 北大核心 2009年第1期141-144,共4页
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本... 根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块。实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法。 展开更多
关键词 HTML标签 网页分块 内容特征 信息抽取
在线阅读 下载PDF
基于文本对象模型的自动化网页内容提取方法 被引量:3
12
作者 李桐宇 任锐 +1 位作者 蔡鸿明 姜丽红 《上海交通大学学报》 EI CAS CSCD 北大核心 2018年第10期1363-1369,共7页
网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点... 网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点过滤后,对网页的DOM模型进行压缩,便于后续分析处理;然后,提出基于文本-链接密度的内容提取方法来识别网页内容;最后,基于节点熵来识别并去除网页内容中的噪声链接.实验结果表明,相比于传统的网页内容提取方法,该方法的准确率和F1分数均有明显提升,而召回率仅有轻微下降. 展开更多
关键词 文本对象模型 网页内容提取 文本密度 节点熵
在线阅读 下载PDF
社会媒体网页内容的分割与抽取
13
作者 解姝 叶施仁 肖春 《计算机工程》 CAS CSCD 北大核心 2011年第21期155-158,共4页
为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社... 为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社会媒体网页内容,具有较高的准确率和召回率。 展开更多
关键词 社会媒体 DOM结构 K-MEANS算法 自学习 抽取规则 网页内容抽取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部