期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于网页结构树的Web信息抽取方法 被引量:24
1
作者 陈琼 苏文健 《计算机工程》 EI CAS CSCD 北大核心 2005年第20期54-55,140,共3页
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构... 提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。 展开更多
关键词 信息抽取 结构 网页结构 模式
在线阅读 下载PDF
一种改进的基于树路径匹配的网页结构相似度算法 被引量:7
2
作者 廖浩伟 杨燕 +1 位作者 贾真 尹红风 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2012年第6期1199-1203,共5页
提出一种改进的基于树路径匹配的网页结构相似度算法,该算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度.实验结果表明,用改进后的算法计算网页结构相似度比传统树路径匹配... 提出一种改进的基于树路径匹配的网页结构相似度算法,该算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度.实验结果表明,用改进后的算法计算网页结构相似度比传统树路径匹配方法更符合实际,更合理有效. 展开更多
关键词 网页结构相似度 序列相似度 位置相似度
在线阅读 下载PDF
网页结构类型对大学生记忆效果影响的研究 被引量:4
3
作者 曹卫真 罗思瑜 +1 位作者 邢强 祁禄 《电化教育研究》 CSSCI 北大核心 2010年第8期71-76,81,共7页
本研究以网络课程的教学内容呈现页面为实验材料,采用眼动追踪技术,探讨网页结构类型对我国大学生认知有效性的影响。在此基础上,进一步探讨同一网页结构中,导航有无装饰背景和内容呈现区有无装饰背景对大学生的眼动模式和认知效果的影... 本研究以网络课程的教学内容呈现页面为实验材料,采用眼动追踪技术,探讨网页结构类型对我国大学生认知有效性的影响。在此基础上,进一步探讨同一网页结构中,导航有无装饰背景和内容呈现区有无装饰背景对大学生的眼动模式和认知效果的影响。本研究结果显示:有上导航且左边是侧导航、右边是内容呈现区的网页结构更能维持大学生的兴趣和注意,并且更有利于大学生的记忆;相同网页结构中,导航有无装饰背景和内容呈现区有无装饰背景对大学生认知有效性的影响没有很大的差别。 展开更多
关键词 大学生 网页结构 认知 有效性 眼动
在线阅读 下载PDF
基于网页结构挖掘的信息提取 被引量:2
4
作者 李媛 耿桦 +1 位作者 张甍 潘金贵 《计算机科学》 CSCD 北大核心 2006年第3期191-193,218,共4页
本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析。
关键词 信息提取 网页结构挖掘 重复模式 时间特征 RSS
在线阅读 下载PDF
基于B/S架构的Web网页结构检测应用研究 被引量:2
5
作者 陈圣俭 孙明涛 《现代电子技术》 2009年第2期135-138,共4页
随着互联网的普及,大型的跨国公司要求公司对内对外的所有网站都遵循统一的框架结构,因此为了判断网页结构是否符合标准,需要对网页结构进行检测。Web结构分析是指从Web文档中自动分析网页结构的过程,检测不符合标准的网页。依据W3C Mar... 随着互联网的普及,大型的跨国公司要求公司对内对外的所有网站都遵循统一的框架结构,因此为了判断网页结构是否符合标准,需要对网页结构进行检测。Web结构分析是指从Web文档中自动分析网页结构的过程,检测不符合标准的网页。依据W3C Markup Validation Service的设计理念,基于DOM结构树和正则表达式的操作,以分析Web网页结构为基础,提出了Web页面结构检测的设计思想。在解析Html和CSS代码的基础上,网页结构检测正确率达到80%以上。 展开更多
关键词 正则表达式 网页结构 检测 文档对象模型 属性元素
在线阅读 下载PDF
基于网页结构的网站无障碍抽样方法
6
作者 李飞 李晗静 +1 位作者 姚登峰 吕会华 《现代电子技术》 北大核心 2018年第21期80-83,共4页
为测试网站的无障碍程度,需要测试网站中所有网页的无障碍性。对于大型网站,直接测试所有网页是耗时而昂贵的。在实践中,通常选择有代表性的样本进行测试,作为整个网站的测试结果。测试的结果完全依赖于所选择的页面,因此,采样方法不好... 为测试网站的无障碍程度,需要测试网站中所有网页的无障碍性。对于大型网站,直接测试所有网页是耗时而昂贵的。在实践中,通常选择有代表性的样本进行测试,作为整个网站的测试结果。测试的结果完全依赖于所选择的页面,因此,采样方法不好可能会导致采样偏差过大,影响测试结果。为了解决这个问题,提出一种基于网页结构的抽取采样方法,以获得网站的评估结果。根据网页结构的相似性对整个网站进行分类,将网站无障碍测试转换为几类网页的评估,从而避免测试的高昂成本问题。实验结果表明,基于网页结构的网页抽样比现有的方法更精确,更好地反映了网站的无障碍水平。 展开更多
关键词 网站可达性 网站测试 网页结构 网页评估 采样方法 网页抽样
在线阅读 下载PDF
基于网页结构的网站检测研究
7
作者 李大辉 何清刚 +1 位作者 王佰玲 邹新一 《高技术通讯》 CAS CSCD 北大核心 2015年第10期912-918,共7页
为了准确检测出仿冒网站,提出了一种基于网页结构的页面相似度计算方法。该方法首先将网页分块并进行合理的筛选,其次通过初步比对确定相似节点群,最后将网页数据量化并计算出网页是否相似。试验表明,该方法可以有效地检测出网页相似情... 为了准确检测出仿冒网站,提出了一种基于网页结构的页面相似度计算方法。该方法首先将网页分块并进行合理的筛选,其次通过初步比对确定相似节点群,最后将网页数据量化并计算出网页是否相似。试验表明,该方法可以有效地检测出网页相似情况,对于仿冒网站的镜像尤其明显,误报率及漏报率均不超过10%。 展开更多
关键词 网页结构 节点筛选 网页比对
在线阅读 下载PDF
基于OWL的网页视觉结构本体表示和Web检索 被引量:3
8
作者 林菡 何钦铭 《计算机工程与应用》 CSCD 北大核心 2004年第15期157-160,共4页
随着网络信息内容的激增,为Web信息挖掘带来了一系列的困难。目前的Web检索主要在网页的内容上展开,往往忽视了网页结构蕴含的丰富信息。该文提出的网页视觉结构本体的构建,摆脱了以往领域本体仅在网页内容上辅助挖掘的局限,充分地挖掘... 随着网络信息内容的激增,为Web信息挖掘带来了一系列的困难。目前的Web检索主要在网页的内容上展开,往往忽视了网页结构蕴含的丰富信息。该文提出的网页视觉结构本体的构建,摆脱了以往领域本体仅在网页内容上辅助挖掘的局限,充分地挖掘了网页的视觉信息和结构信息,结合视觉重要性判定的领域知识本体来辅助Web检索,同时结合OWL语言达到机器理解的目的和知识级上的共享。 展开更多
关键词 本体 网页结构本体 OWL语言 语义WEB 机器学习 重要性判断 WEB检索
在线阅读 下载PDF
一种全自动生成网页信息抽取Wrapper的方法 被引量:21
9
作者 梅雪 程学旗 +2 位作者 郭岩 张刚 丁国栋 《中文信息学报》 CSCD 北大核心 2008年第1期22-29,共8页
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页... Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。 展开更多
关键词 计算机应用 中文信息处理 网页信息抽取 网页结构分离 包装器
在线阅读 下载PDF
试论Internet远程网络教学及其网页设计 被引量:19
10
作者 章国英 叶春阳 邓秋军 《电化教育研究》 北大核心 1999年第4期38-40,共3页
本文阐述了远程网络教学的特点、教学方式,介绍了教学网页的构成要素及网页设计的原则。
关键词 远程网络教学 网页课件 构成要素 网页结构设计
在线阅读 下载PDF
主题网页标签树邻接矩阵识别算法研究 被引量:2
11
作者 宋军 杨晓夫 +1 位作者 李益才 王家伟 《计算机科学》 CSCD 北大核心 2016年第6期316-320,共5页
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题... 随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。 展开更多
关键词 网页结构 HTML标签 标签树邻接矩阵
在线阅读 下载PDF
基于链路压缩树的网页相似度研究 被引量:2
12
作者 宋明秋 张瑞雪 《情报学报》 CSSCI 北大核心 2012年第1期40-46,共7页
大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页。HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构。网页的相似性表现结构上就是结构相似性。研究网页结构相似性的方法有... 大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页。HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构。网页的相似性表现结构上就是结构相似性。研究网页结构相似性的方法有很多,本文从DOM树中的链路结构的角度来研究不同网页间的相似性,并提出了基于链路压缩树的结构相似度度量模型。本文中的计算方法都用Python语言实现。通过实验,本文使用多种方法对不同网页间的相似度进行了计算和分析,实验数据表明,基于链路压缩树的结构相似度度量模型具有较好的适用性,其速度是传统方法不可比拟的。 展开更多
关键词 网页结构 链路相似度 结构相似度 链路压缩树
在线阅读 下载PDF
一种改进的树路径模型在网页聚类中的研究 被引量:1
13
作者 王亚普 王志坚 叶枫 《计算机科学》 CSCD 北大核心 2015年第5期109-113,共5页
相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤。对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善。传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完... 相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤。对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善。传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完全匹配时更精确地描述路径之间的相似度。因此,从网页结构相似度入手,提出了一种改进的树路径模型。该模型充分考虑了兄弟节点之间的关系、路径位置以及路径权重,弥补了传统树路径模型无法表达文档结构和层次信息的缺陷。实验结果表明,该模型提高了识别网页结构相似性的能力,既能对结构差别较大的网页进行良好的区分,又能较好地反映来自同一模板的网页之间的差异性,同时在网页聚类中具有更优的效果。 展开更多
关键词 信息提取 网页结构 相似度 树路径模型 聚类
在线阅读 下载PDF
基于注意力机制和集成学习的网页黑名单判别方法 被引量:2
14
作者 周超然 赵建平 +1 位作者 马太 周欣 《计算机应用》 CSCD 北大核心 2021年第1期133-138,共6页
搜索引擎作为互联网主要应用之一,能够根据用户需求从互联网资源中检索并返回有效信息。然而,得到的返回列表往往包含广告和失效网页等噪声信息,而这些信息会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息,提出了一种... 搜索引擎作为互联网主要应用之一,能够根据用户需求从互联网资源中检索并返回有效信息。然而,得到的返回列表往往包含广告和失效网页等噪声信息,而这些信息会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息,提出了一种基于注意力机制和集成学习的网页黑名单判别方法,并采用本方法构建了一种基于集成学习和注意力机制的卷积神经网络(EACNN)模型来过滤无用的网页。首先,根据网页上不同种类的HTML标签数据,构建多个基于注意力机制的卷积神经网络(CNN)基学习器;然后,采用基于网页结构特征的集成学习方法对不同基学习器的输出结果执行不同的权重计算,从而实现EACNN的构建;最后,将EACNN的输出结果作为网页内容分析结果,从而实现网页黑名单的判别。所提方法通过注意力机制来关注网页语义信息,并通过集成学习的方式引入网页结构特征。实验结果表明,与支持向量机(SVM)、K近邻(KNN)、CNN、长短期记忆(LSTM)网络、GRU、结合注意力机制的卷积神经网络(ACNN)等基线模型相比,所提模型在所构建的面向地理信息领域的判别数据集上具有最高的准确率(0.97)、召回率(0.95)和F1分值(0.96),验证了EACNN在网页黑名单判别工作中的优势。 展开更多
关键词 网页黑名单 判别模型 网页结构特征 语义信息 注意力机制 集成学习 深度学习
在线阅读 下载PDF
利用扩展锚点文本来分类网页 被引量:1
15
作者 刘红 《计算机应用研究》 CSCD 北大核心 2004年第3期112-113,124,共3页
在以往一些分类方法的基础上,通过分析网页自身的结构,提出了一种利用扩展锚点文本来对网页进行自动分类的方法。
关键词 网页分类:网页结构 锚点文本 扩展锚点文本
在线阅读 下载PDF
基于MD5的网页去重算法的设计与研究 被引量:1
16
作者 闫俊伢 《实验室研究与探索》 CAS 北大核心 2013年第12期105-108,共4页
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重... 随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重算法,并从算法内容、算法特征、算法设计进行了阐述,实验表明该方法对提高查全率和查准率具有很好的效果。 展开更多
关键词 结构网页 MD5 网页去重 去重算法
在线阅读 下载PDF
基于历史网页的事件报导信息系统设计与分析 被引量:3
17
作者 黄连恩 李晓明 《计算机工程与科学》 CSCD 2008年第2期1-4,8,共5页
Webinfomall是北京大学网络实验室从2001年开始建设的中国网页档案馆。迄今,它已经收藏了自2002年初以来出现在中国互联网上的近30亿网页,而且以每天100~200万网页的速度在不断增加。这些网页不仅来源于不同的URL,而且还包含同一个URL... Webinfomall是北京大学网络实验室从2001年开始建设的中国网页档案馆。迄今,它已经收藏了自2002年初以来出现在中国互联网上的近30亿网页,而且以每天100~200万网页的速度在不断增加。这些网页不仅来源于不同的URL,而且还包含同一个URL的不同内容版本,其中许多内容目前在中国互联网上已经不复存在。如何在这样一个海量信息系统中开展有效的信息挖掘是我们面对的一个基本问题。本文描述一个实验性系统(HisTrace)框架。该系统旨在支持人们从Webinfomall中尽量准确、完整地提取与重要历史事件相关的网络新闻报道,并按照报道发生的时间顺序将它们不重复地展示出来。由于Webinfomall的海量性,也由于网络信息的复杂性和随意性,这其中有不少挑战。本文对其中的主要环节进行了分析。最后,我们简要介绍了系统的初步实现情况。 展开更多
关键词 网络信息挖掘 网页内容分析 文本消重 网页链接结构 信息压缩
在线阅读 下载PDF
基于路径学习的信息自动抽取方法 被引量:7
18
作者 于琨 蔡智 +1 位作者 糜仲春 蔡庆生 《小型微型计算机系统》 CSCD 北大核心 2003年第12期2147-2149,共3页
针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习... 针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习的信息自动抽取方法 ,并采用该方法编制了一个商品价格信息自动抽取系统 .实验结果表明 ,该方法具有用户负担较轻 (只需用户提供 2~ 4个学习实例 )、查全率 (97.0 4~ 10 0 % )与查准率 (99~ 10 0 % )高、可实现大样本量信息抽取和时间资源耗费少 (抽取时间 <1秒 )等特点 ,能基本满足网页信息自动抽取的要求 . 展开更多
关键词 信息自动抽取 路径学习 互联网 网页结构分析 归纳学习
在线阅读 下载PDF
基于PageRank算法的权威值不均衡分配问题 被引量:20
19
作者 田甜 倪林 《计算机工程》 CAS CSCD 北大核心 2007年第18期53-55,共3页
PageRank对所链接的网页的"权威值"存在平均分配的思想,由于互联网的网页是千差万别的,因此这种方法存在一定的局限性。该文利用了Web链接结构,提出了一种权威值不均衡分配的方法(IPR),通过与PageRank算法相比,IPR的排序结果... PageRank对所链接的网页的"权威值"存在平均分配的思想,由于互联网的网页是千差万别的,因此这种方法存在一定的局限性。该文利用了Web链接结构,提出了一种权威值不均衡分配的方法(IPR),通过与PageRank算法相比,IPR的排序结果比PageRank提高了近90%的相关度。 展开更多
关键词 网页结构挖掘 网页排序 改进的PageRank
在线阅读 下载PDF
基于Bayes概率的用户兴趣发现 被引量:3
20
作者 李晓丽 杜振龙 +1 位作者 李明 余冬梅 《计算机工程与科学》 CSCD 2003年第5期17-19,26,共4页
本文结合网页结构,充分考虑用户在网页的滞留时间和页面切换,基于Bayes概率提出了一种能挖掘出优良的用户兴趣迁移模式及感兴趣的页面。采用本文提出的思想及算法,再结合人工智能策略,将能更好地辅助网站设计,并为电子商务的决策提供充... 本文结合网页结构,充分考虑用户在网页的滞留时间和页面切换,基于Bayes概率提出了一种能挖掘出优良的用户兴趣迁移模式及感兴趣的页面。采用本文提出的思想及算法,再结合人工智能策略,将能更好地辅助网站设计,并为电子商务的决策提供充分依据。 展开更多
关键词 网页结构 Bayes概率 用户兴趣发现 电子商务
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部