期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于HTML Parser的网页信息提取技术研究
被引量:
3
1
作者
珠杰
罗潘
《西藏大学学报(社会科学版)》
CSSCI
2010年第3期41-44,共4页
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和...
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。
展开更多
关键词
搜索引擎
网页信息提取
HTML
PARSER
在线阅读
下载PDF
职称材料
NEMTF:基于多维度文本特征的新闻网页信息提取方法
被引量:
1
2
作者
翁彬月
秦永彬
+2 位作者
黄瑞章
任丽娜
田悦霖
《计算机应用研究》
CSCD
北大核心
2022年第4期1043-1048,共6页
目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过...
目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。
展开更多
关键词
网页信息提取
卷积神经网络
WEB挖掘
文本特征
在线阅读
下载PDF
职称材料
基于HTML树和模板的文献信息提取方法研究
被引量:
7
3
作者
李文立
王乐超
宋春雷
《计算机应用研究》
CSCD
北大核心
2010年第12期4615-4617,共3页
教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将...
教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。
展开更多
关键词
网页信息提取
文档对象模型树
模板
文献
信息
搜集
在线阅读
下载PDF
职称材料
基于结构语义熵的网上商品信息提取系统
被引量:
2
4
作者
吴晓彦
郑骁庆
+1 位作者
顾轶灵
沈元一
《计算机应用与软件》
CSCD
2010年第9期49-52,84,共5页
目前网上销售已成为一种重要的商品销售途径,其中商品网页信息提取是商品发布信息监测、商品比价等应用的技术基础。传统的网页信息提取系统在提取这些商品信息时存在人工干预过多和提取数据的针对性不强的问题。针对商品销售网站数据...
目前网上销售已成为一种重要的商品销售途径,其中商品网页信息提取是商品发布信息监测、商品比价等应用的技术基础。传统的网页信息提取系统在提取这些商品信息时存在人工干预过多和提取数据的针对性不强的问题。针对商品销售网站数据的具体表现形式,提出了一种基于结构语义熵的商品信息提取算法。该算法结合了商品的语义特征和网页的结构表现形式,可以实现全自动的网页商品提取。并通过实验证明了算法的有效性,和其在网上商品销售领域的普适性。
展开更多
关键词
网页信息提取
结构语义熵
信息
聚集度分析
在线阅读
下载PDF
职称材料
一种新闻网页关键信息的提取算法
被引量:
6
5
作者
向菁菁
耿光刚
李晓东
《计算机应用》
CSCD
北大核心
2016年第8期2082-2086,2120,共6页
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法news Extractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文...
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法news Extractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件news Paper进行提取准确率的对比实验。实验结果表明,news Extractor在正文、标题、时间、来源的平均提取准确率上均优于news Paper,具有通用性和鲁棒性。
展开更多
关键词
网页信息提取
新闻
信息提取
网页
去噪
在线阅读
下载PDF
职称材料
网页正文信息抽取新方法
被引量:
20
6
作者
宋明秋
张瑞雪
+1 位作者
吴新涛
李文立
《大连理工大学学报》
EI
CAS
CSCD
北大核心
2009年第4期594-597,共4页
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结...
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.
展开更多
关键词
包装器
HTML树
网页信息提取
在线阅读
下载PDF
职称材料
基于HTML树的网页结构相似度研究
被引量:
2
7
作者
宋明秋
张瑞雪
《情报学报》
CSSCI
北大核心
2011年第2期160-165,共6页
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似...
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速.
展开更多
关键词
HTML
网页
网页信息提取
结构相似度
Based
Web
结构相似性
匹配规则
度量模型
计算方法
网页
信息
块
PYTHON语言
自由
信息
比较
数据表
实验
结构特征
传统方法
半结构化
系统性
适用性
在线阅读
下载PDF
职称材料
题名
基于HTML Parser的网页信息提取技术研究
被引量:
3
1
作者
珠杰
罗潘
机构
西藏大学工学院
出处
《西藏大学学报(社会科学版)》
CSSCI
2010年第3期41-44,共4页
文摘
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。
关键词
搜索引擎
网页信息提取
HTML
PARSER
Keywords
Search engine
Web information extraction
HTML Parser
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
NEMTF:基于多维度文本特征的新闻网页信息提取方法
被引量:
1
2
作者
翁彬月
秦永彬
黄瑞章
任丽娜
田悦霖
机构
贵州大学计算机科学与技术学院
贵州省公共大数据重点实验室
贵州轻工职业技术学院
出处
《计算机应用研究》
CSCD
北大核心
2022年第4期1043-1048,共6页
基金
国家自然科学基金通用联合基金重点资助项目(U1836205)
国家自然科学基金重大研究计划资助项目(91746116)
+2 种基金
国家自然科学基金资助项目(62066007,62066008)
贵州省科技重大专项计划资助项目(黔科合重大专项字[2017]3002)
贵州省科学技术基金重点资助项目(黔科合基础[2020]1Z055)。
文摘
目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。
关键词
网页信息提取
卷积神经网络
WEB挖掘
文本特征
Keywords
Web content extraction
convolutional neural network(CNN)
Web mining
text feature
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于HTML树和模板的文献信息提取方法研究
被引量:
7
3
作者
李文立
王乐超
宋春雷
机构
大连理工大学管理学院系统工程研究所
出处
《计算机应用研究》
CSCD
北大核心
2010年第12期4615-4617,共3页
基金
国家自然科学基金资助项目(70572099)
辽宁省自然科学基金资助项目(1050349)
文摘
教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。
关键词
网页信息提取
文档对象模型树
模板
文献
信息
搜集
Keywords
Web information extraction
DOM tree
template
document information extraction
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于结构语义熵的网上商品信息提取系统
被引量:
2
4
作者
吴晓彦
郑骁庆
顾轶灵
沈元一
机构
复旦大学软件学院
出处
《计算机应用与软件》
CSCD
2010年第9期49-52,84,共5页
基金
国家科技支撑计划项目(2006bah02a05-06)
文摘
目前网上销售已成为一种重要的商品销售途径,其中商品网页信息提取是商品发布信息监测、商品比价等应用的技术基础。传统的网页信息提取系统在提取这些商品信息时存在人工干预过多和提取数据的针对性不强的问题。针对商品销售网站数据的具体表现形式,提出了一种基于结构语义熵的商品信息提取算法。该算法结合了商品的语义特征和网页的结构表现形式,可以实现全自动的网页商品提取。并通过实验证明了算法的有效性,和其在网上商品销售领域的普适性。
关键词
网页信息提取
结构语义熵
信息
聚集度分析
Keywords
Web information extraction Structured-semantic entropy Information aggregation analysis
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种新闻网页关键信息的提取算法
被引量:
6
5
作者
向菁菁
耿光刚
李晓东
机构
中国互联网络信息中心
中国科学院大学计算机网络信息中心
出处
《计算机应用》
CSCD
北大核心
2016年第8期2082-2086,2120,共6页
基金
国家自然科学基金面上项目(61375039)
中国科学院网络中心一三五重点项目(CNIC_PY_1402)~~
文摘
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法news Extractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件news Paper进行提取准确率的对比实验。实验结果表明,news Extractor在正文、标题、时间、来源的平均提取准确率上均优于news Paper,具有通用性和鲁棒性。
关键词
网页信息提取
新闻
信息提取
网页
去噪
Keywords
Web information extraction
news information extraction
Web denoising
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
网页正文信息抽取新方法
被引量:
20
6
作者
宋明秋
张瑞雪
吴新涛
李文立
机构
大连理工大学系统工程研究所
出处
《大连理工大学学报》
EI
CAS
CSCD
北大核心
2009年第4期594-597,共4页
基金
国家自然科学基金资助项目(70671016)
文摘
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.
关键词
包装器
HTML树
网页信息提取
Keywords
wrapper
HTML tree
web information extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于HTML树的网页结构相似度研究
被引量:
2
7
作者
宋明秋
张瑞雪
机构
大连理工大学系统工程研究所
出处
《情报学报》
CSSCI
北大核心
2011年第2期160-165,共6页
基金
国家自然科学基金
文摘
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速.
关键词
HTML
网页
网页信息提取
结构相似度
Based
Web
结构相似性
匹配规则
度量模型
计算方法
网页
信息
块
PYTHON语言
自由
信息
比较
数据表
实验
结构特征
传统方法
半结构化
系统性
适用性
Keywords
HTML tree
structural similarity
free matching
information extracting
分类号
G35 [文化科学—情报学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于HTML Parser的网页信息提取技术研究
珠杰
罗潘
《西藏大学学报(社会科学版)》
CSSCI
2010
3
在线阅读
下载PDF
职称材料
2
NEMTF:基于多维度文本特征的新闻网页信息提取方法
翁彬月
秦永彬
黄瑞章
任丽娜
田悦霖
《计算机应用研究》
CSCD
北大核心
2022
1
在线阅读
下载PDF
职称材料
3
基于HTML树和模板的文献信息提取方法研究
李文立
王乐超
宋春雷
《计算机应用研究》
CSCD
北大核心
2010
7
在线阅读
下载PDF
职称材料
4
基于结构语义熵的网上商品信息提取系统
吴晓彦
郑骁庆
顾轶灵
沈元一
《计算机应用与软件》
CSCD
2010
2
在线阅读
下载PDF
职称材料
5
一种新闻网页关键信息的提取算法
向菁菁
耿光刚
李晓东
《计算机应用》
CSCD
北大核心
2016
6
在线阅读
下载PDF
职称材料
6
网页正文信息抽取新方法
宋明秋
张瑞雪
吴新涛
李文立
《大连理工大学学报》
EI
CAS
CSCD
北大核心
2009
20
在线阅读
下载PDF
职称材料
7
基于HTML树的网页结构相似度研究
宋明秋
张瑞雪
《情报学报》
CSSCI
北大核心
2011
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部