检索结果-维普期刊中文期刊服务平台

基于HTML Parser的网页信息提取技术研究被引量：3: 1; 作者珠杰罗潘《西藏大学学报（社会科学版）》 CSSCI 2010年第3期41-44,共4页; 在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和... 展开更多; 关键词搜索引擎网页信息提取 HTML PARSER; 在线阅读下载PDF 职称材料

NEMTF:基于多维度文本特征的新闻网页信息提取方法被引量：1: 2; 作者翁彬月秦永彬 +2 位作者黄瑞章任丽娜田悦霖《计算机应用研究》 CSCD 北大核心 2022年第4期1043-1048,共6页; 目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过... 展开更多; 关键词网页信息提取卷积神经网络 WEB挖掘文本特征; 在线阅读下载PDF 职称材料

基于HTML树和模板的文献信息提取方法研究被引量：7: 3; 作者李文立王乐超宋春雷《计算机应用研究》 CSCD 北大核心 2010年第12期4615-4617,共3页; 教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将... 展开更多; 关键词网页信息提取文档对象模型树模板文献信息搜集; 在线阅读下载PDF 职称材料

基于结构语义熵的网上商品信息提取系统被引量：2: 4; 作者吴晓彦郑骁庆 +1 位作者顾轶灵沈元一《计算机应用与软件》 CSCD 2010年第9期49-52,84,共5页; 目前网上销售已成为一种重要的商品销售途径,其中商品网页信息提取是商品发布信息监测、商品比价等应用的技术基础。传统的网页信息提取系统在提取这些商品信息时存在人工干预过多和提取数据的针对性不强的问题。针对商品销售网站数据... 展开更多; 关键词网页信息提取结构语义熵信息聚集度分析; 在线阅读下载PDF 职称材料

一种新闻网页关键信息的提取算法被引量：6: 5; 作者向菁菁耿光刚李晓东《计算机应用》 CSCD 北大核心 2016年第8期2082-2086,2120,共6页; 针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法news Extractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文... 展开更多; 关键词网页信息提取新闻信息提取网页去噪; 在线阅读下载PDF 职称材料

网页正文信息抽取新方法被引量：20: 6; 作者宋明秋张瑞雪 +1 位作者吴新涛李文立《大连理工大学学报》 EI CAS CSCD 北大核心 2009年第4期594-597,共4页; 基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结... 展开更多; 关键词包装器 HTML树网页信息提取; 在线阅读下载PDF 职称材料

基于HTML树的网页结构相似度研究被引量：2: 7; 作者宋明秋张瑞雪《情报学报》 CSSCI 北大核心 2011年第2期160-165,共6页; HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似... 展开更多; 关键词 HTML网页网页信息提取结构相似度 Based Web 结构相似性匹配规则度量模型计算方法网页信息块 PYTHON语言自由信息比较数据表实验结构特征传统方法半结构化系统性适用性; 在线阅读下载PDF 职称材料

题名基于HTML Parser的网页信息提取技术研究被引量：3: 1; 作者珠杰罗潘; 机构西藏大学工学院; 出处《西藏大学学报（社会科学版）》 CSSCI 2010年第3期41-44,共4页; 文摘在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。; 关键词搜索引擎网页信息提取 HTML PARSER; Keywords Search engine Web information extraction HTML Parser; 分类号 TP301 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名NEMTF:基于多维度文本特征的新闻网页信息提取方法被引量：1: 2; 作者翁彬月秦永彬黄瑞章任丽娜田悦霖; 机构贵州大学计算机科学与技术学院贵州省公共大数据重点实验室贵州轻工职业技术学院; 出处《计算机应用研究》 CSCD 北大核心 2022年第4期1043-1048,共6页; 基金国家自然科学基金通用联合基金重点资助项目(U1836205) 国家自然科学基金重大研究计划资助项目(91746116) +2 种基金贵州省科学技术基金重点资助项目(黔科合基础[2020]1Z055)。; 文摘目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。; 关键词网页信息提取卷积神经网络 WEB挖掘文本特征; Keywords Web content extraction convolutional neural network(CNN) Web mining text feature; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于HTML树和模板的文献信息提取方法研究被引量：7: 3; 作者李文立王乐超宋春雷; 机构大连理工大学管理学院系统工程研究所; 出处《计算机应用研究》 CSCD 北大核心 2010年第12期4615-4617,共3页; 基金国家自然科学基金资助项目(70572099) 辽宁省自然科学基金资助项目(1050349); 文摘教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。; 关键词网页信息提取文档对象模型树模板文献信息搜集; Keywords Web information extraction DOM tree template document information extraction; 分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于结构语义熵的网上商品信息提取系统被引量：2: 4; 作者吴晓彦郑骁庆顾轶灵沈元一; 机构复旦大学软件学院; 出处《计算机应用与软件》 CSCD 2010年第9期49-52,84,共5页; 基金国家科技支撑计划项目(2006bah02a05-06); 文摘目前网上销售已成为一种重要的商品销售途径,其中商品网页信息提取是商品发布信息监测、商品比价等应用的技术基础。传统的网页信息提取系统在提取这些商品信息时存在人工干预过多和提取数据的针对性不强的问题。针对商品销售网站数据的具体表现形式,提出了一种基于结构语义熵的商品信息提取算法。该算法结合了商品的语义特征和网页的结构表现形式,可以实现全自动的网页商品提取。并通过实验证明了算法的有效性,和其在网上商品销售领域的普适性。; 关键词网页信息提取结构语义熵信息聚集度分析; Keywords Web information extraction Structured-semantic entropy Information aggregation analysis; 分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名一种新闻网页关键信息的提取算法被引量：6: 5; 作者向菁菁耿光刚李晓东; 机构中国互联网络信息中心中国科学院大学计算机网络信息中心; 出处《计算机应用》 CSCD 北大核心 2016年第8期2082-2086,2120,共6页; 基金国家自然科学基金面上项目(61375039) 中国科学院网络中心一三五重点项目(CNIC_PY_1402)~~; 文摘针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法news Extractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件news Paper进行提取准确率的对比实验。实验结果表明,news Extractor在正文、标题、时间、来源的平均提取准确率上均优于news Paper,具有通用性和鲁棒性。; 关键词网页信息提取新闻信息提取网页去噪; Keywords Web information extraction news information extraction Web denoising; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名网页正文信息抽取新方法被引量：20: 6; 作者宋明秋张瑞雪吴新涛李文立; 机构大连理工大学系统工程研究所; 出处《大连理工大学学报》 EI CAS CSCD 北大核心 2009年第4期594-597,共4页; 基金国家自然科学基金资助项目(70671016); 文摘基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.; 关键词包装器 HTML树网页信息提取; Keywords wrapper HTML tree web information extraction; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于HTML树的网页结构相似度研究被引量：2: 7; 作者宋明秋张瑞雪; 机构大连理工大学系统工程研究所; 出处《情报学报》 CSSCI 北大核心 2011年第2期160-165,共6页; 基金国家自然科学基金; 文摘 HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速.; 关键词 HTML网页网页信息提取结构相似度 Based Web 结构相似性匹配规则度量模型计算方法网页信息块 PYTHON语言自由信息比较数据表实验结构特征传统方法半结构化系统性适用性; Keywords HTML tree structural similarity free matching information extracting; 分类号 G35 [文化科学—情报学]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于HTML Parser的网页信息提取技术研究	珠杰罗潘	《西藏大学学报（社会科学版）》 CSSCI	2010	3	在线阅读下载PDF 职称材料
2	NEMTF:基于多维度文本特征的新闻网页信息提取方法	翁彬月秦永彬黄瑞章任丽娜田悦霖	《计算机应用研究》 CSCD 北大核心	2022	1	在线阅读下载PDF 职称材料
3	基于HTML树和模板的文献信息提取方法研究	李文立王乐超宋春雷	《计算机应用研究》 CSCD 北大核心	2010	7	在线阅读下载PDF 职称材料
4	基于结构语义熵的网上商品信息提取系统	吴晓彦郑骁庆顾轶灵沈元一	《计算机应用与软件》 CSCD	2010	2	在线阅读下载PDF 职称材料
5	一种新闻网页关键信息的提取算法	向菁菁耿光刚李晓东	《计算机应用》 CSCD 北大核心	2016	6	在线阅读下载PDF 职称材料
6	网页正文信息抽取新方法	宋明秋张瑞雪吴新涛李文立	《大连理工大学学报》 EI CAS CSCD 北大核心	2009	20	在线阅读下载PDF 职称材料
7	基于HTML树的网页结构相似度研究	宋明秋张瑞雪	《情报学报》 CSSCI 北大核心	2011	2	在线阅读下载PDF 职称材料