期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
23
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于网页结构树的Web信息抽取方法
被引量:
24
1
作者
陈琼
苏文健
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第20期54-55,140,共3页
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构...
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。
展开更多
关键词
信息抽取
半
结构
网页结构
树
模式
在线阅读
下载PDF
职称材料
一种改进的基于树路径匹配的网页结构相似度算法
被引量:
7
2
作者
廖浩伟
杨燕
+1 位作者
贾真
尹红风
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2012年第6期1199-1203,共5页
提出一种改进的基于树路径匹配的网页结构相似度算法,该算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度.实验结果表明,用改进后的算法计算网页结构相似度比传统树路径匹配...
提出一种改进的基于树路径匹配的网页结构相似度算法,该算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度.实验结果表明,用改进后的算法计算网页结构相似度比传统树路径匹配方法更符合实际,更合理有效.
展开更多
关键词
网页结构
相似度
序列相似度
位置相似度
在线阅读
下载PDF
职称材料
网页结构类型对大学生记忆效果影响的研究
被引量:
4
3
作者
曹卫真
罗思瑜
+1 位作者
邢强
祁禄
《电化教育研究》
CSSCI
北大核心
2010年第8期71-76,81,共7页
本研究以网络课程的教学内容呈现页面为实验材料,采用眼动追踪技术,探讨网页结构类型对我国大学生认知有效性的影响。在此基础上,进一步探讨同一网页结构中,导航有无装饰背景和内容呈现区有无装饰背景对大学生的眼动模式和认知效果的影...
本研究以网络课程的教学内容呈现页面为实验材料,采用眼动追踪技术,探讨网页结构类型对我国大学生认知有效性的影响。在此基础上,进一步探讨同一网页结构中,导航有无装饰背景和内容呈现区有无装饰背景对大学生的眼动模式和认知效果的影响。本研究结果显示:有上导航且左边是侧导航、右边是内容呈现区的网页结构更能维持大学生的兴趣和注意,并且更有利于大学生的记忆;相同网页结构中,导航有无装饰背景和内容呈现区有无装饰背景对大学生认知有效性的影响没有很大的差别。
展开更多
关键词
大学生
网页结构
认知
有效性
眼动
在线阅读
下载PDF
职称材料
基于网页结构挖掘的信息提取
被引量:
2
4
作者
李媛
耿桦
+1 位作者
张甍
潘金贵
《计算机科学》
CSCD
北大核心
2006年第3期191-193,218,共4页
本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析。
关键词
信息提取
网页结构
挖掘
重复模式
时间特征
RSS
在线阅读
下载PDF
职称材料
基于B/S架构的Web网页结构检测应用研究
被引量:
2
5
作者
陈圣俭
孙明涛
《现代电子技术》
2009年第2期135-138,共4页
随着互联网的普及,大型的跨国公司要求公司对内对外的所有网站都遵循统一的框架结构,因此为了判断网页结构是否符合标准,需要对网页结构进行检测。Web结构分析是指从Web文档中自动分析网页结构的过程,检测不符合标准的网页。依据W3C Mar...
随着互联网的普及,大型的跨国公司要求公司对内对外的所有网站都遵循统一的框架结构,因此为了判断网页结构是否符合标准,需要对网页结构进行检测。Web结构分析是指从Web文档中自动分析网页结构的过程,检测不符合标准的网页。依据W3C Markup Validation Service的设计理念,基于DOM结构树和正则表达式的操作,以分析Web网页结构为基础,提出了Web页面结构检测的设计思想。在解析Html和CSS代码的基础上,网页结构检测正确率达到80%以上。
展开更多
关键词
正则表达式
网页结构
树
检测
文档对象模型
属性元素
在线阅读
下载PDF
职称材料
基于网页结构的网站无障碍抽样方法
6
作者
李飞
李晗静
+1 位作者
姚登峰
吕会华
《现代电子技术》
北大核心
2018年第21期80-83,共4页
为测试网站的无障碍程度,需要测试网站中所有网页的无障碍性。对于大型网站,直接测试所有网页是耗时而昂贵的。在实践中,通常选择有代表性的样本进行测试,作为整个网站的测试结果。测试的结果完全依赖于所选择的页面,因此,采样方法不好...
为测试网站的无障碍程度,需要测试网站中所有网页的无障碍性。对于大型网站,直接测试所有网页是耗时而昂贵的。在实践中,通常选择有代表性的样本进行测试,作为整个网站的测试结果。测试的结果完全依赖于所选择的页面,因此,采样方法不好可能会导致采样偏差过大,影响测试结果。为了解决这个问题,提出一种基于网页结构的抽取采样方法,以获得网站的评估结果。根据网页结构的相似性对整个网站进行分类,将网站无障碍测试转换为几类网页的评估,从而避免测试的高昂成本问题。实验结果表明,基于网页结构的网页抽样比现有的方法更精确,更好地反映了网站的无障碍水平。
展开更多
关键词
网站可达性
网站测试
网页结构
网页
评估
采样方法
网页
抽样
在线阅读
下载PDF
职称材料
基于网页结构的网站检测研究
7
作者
李大辉
何清刚
+1 位作者
王佰玲
邹新一
《高技术通讯》
CAS
CSCD
北大核心
2015年第10期912-918,共7页
为了准确检测出仿冒网站,提出了一种基于网页结构的页面相似度计算方法。该方法首先将网页分块并进行合理的筛选,其次通过初步比对确定相似节点群,最后将网页数据量化并计算出网页是否相似。试验表明,该方法可以有效地检测出网页相似情...
为了准确检测出仿冒网站,提出了一种基于网页结构的页面相似度计算方法。该方法首先将网页分块并进行合理的筛选,其次通过初步比对确定相似节点群,最后将网页数据量化并计算出网页是否相似。试验表明,该方法可以有效地检测出网页相似情况,对于仿冒网站的镜像尤其明显,误报率及漏报率均不超过10%。
展开更多
关键词
网页结构
节点筛选
网页
比对
在线阅读
下载PDF
职称材料
基于OWL的网页视觉结构本体表示和Web检索
被引量:
3
8
作者
林菡
何钦铭
《计算机工程与应用》
CSCD
北大核心
2004年第15期157-160,共4页
随着网络信息内容的激增,为Web信息挖掘带来了一系列的困难。目前的Web检索主要在网页的内容上展开,往往忽视了网页结构蕴含的丰富信息。该文提出的网页视觉结构本体的构建,摆脱了以往领域本体仅在网页内容上辅助挖掘的局限,充分地挖掘...
随着网络信息内容的激增,为Web信息挖掘带来了一系列的困难。目前的Web检索主要在网页的内容上展开,往往忽视了网页结构蕴含的丰富信息。该文提出的网页视觉结构本体的构建,摆脱了以往领域本体仅在网页内容上辅助挖掘的局限,充分地挖掘了网页的视觉信息和结构信息,结合视觉重要性判定的领域知识本体来辅助Web检索,同时结合OWL语言达到机器理解的目的和知识级上的共享。
展开更多
关键词
本体
网页结构
本体
OWL语言
语义WEB
机器学习
重要性判断
WEB检索
在线阅读
下载PDF
职称材料
一种全自动生成网页信息抽取Wrapper的方法
被引量:
21
9
作者
梅雪
程学旗
+2 位作者
郭岩
张刚
丁国栋
《中文信息学报》
CSCD
北大核心
2008年第1期22-29,共8页
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页...
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。
展开更多
关键词
计算机应用
中文信息处理
网页
信息抽取
网页结构
分离
包装器
在线阅读
下载PDF
职称材料
试论Internet远程网络教学及其网页设计
被引量:
19
10
作者
章国英
叶春阳
邓秋军
《电化教育研究》
北大核心
1999年第4期38-40,共3页
本文阐述了远程网络教学的特点、教学方式,介绍了教学网页的构成要素及网页设计的原则。
关键词
远程网络教学
网页
课件
构成要素
网页结构
设计
在线阅读
下载PDF
职称材料
主题网页标签树邻接矩阵识别算法研究
被引量:
2
11
作者
宋军
杨晓夫
+1 位作者
李益才
王家伟
《计算机科学》
CSCD
北大核心
2016年第6期316-320,共5页
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题...
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。
展开更多
关键词
网页结构
HTML标签
标签树邻接矩阵
在线阅读
下载PDF
职称材料
基于链路压缩树的网页相似度研究
被引量:
2
12
作者
宋明秋
张瑞雪
《情报学报》
CSSCI
北大核心
2012年第1期40-46,共7页
大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页。HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构。网页的相似性表现结构上就是结构相似性。研究网页结构相似性的方法有...
大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页。HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构。网页的相似性表现结构上就是结构相似性。研究网页结构相似性的方法有很多,本文从DOM树中的链路结构的角度来研究不同网页间的相似性,并提出了基于链路压缩树的结构相似度度量模型。本文中的计算方法都用Python语言实现。通过实验,本文使用多种方法对不同网页间的相似度进行了计算和分析,实验数据表明,基于链路压缩树的结构相似度度量模型具有较好的适用性,其速度是传统方法不可比拟的。
展开更多
关键词
网页结构
链路相似度
结构
相似度
链路压缩树
在线阅读
下载PDF
职称材料
一种改进的树路径模型在网页聚类中的研究
被引量:
1
13
作者
王亚普
王志坚
叶枫
《计算机科学》
CSCD
北大核心
2015年第5期109-113,共5页
相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤。对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善。传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完...
相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤。对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善。传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完全匹配时更精确地描述路径之间的相似度。因此,从网页结构相似度入手,提出了一种改进的树路径模型。该模型充分考虑了兄弟节点之间的关系、路径位置以及路径权重,弥补了传统树路径模型无法表达文档结构和层次信息的缺陷。实验结果表明,该模型提高了识别网页结构相似性的能力,既能对结构差别较大的网页进行良好的区分,又能较好地反映来自同一模板的网页之间的差异性,同时在网页聚类中具有更优的效果。
展开更多
关键词
信息提取
网页结构
相似度
树路径模型
聚类
在线阅读
下载PDF
职称材料
基于注意力机制和集成学习的网页黑名单判别方法
被引量:
2
14
作者
周超然
赵建平
+1 位作者
马太
周欣
《计算机应用》
CSCD
北大核心
2021年第1期133-138,共6页
搜索引擎作为互联网主要应用之一,能够根据用户需求从互联网资源中检索并返回有效信息。然而,得到的返回列表往往包含广告和失效网页等噪声信息,而这些信息会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息,提出了一种...
搜索引擎作为互联网主要应用之一,能够根据用户需求从互联网资源中检索并返回有效信息。然而,得到的返回列表往往包含广告和失效网页等噪声信息,而这些信息会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息,提出了一种基于注意力机制和集成学习的网页黑名单判别方法,并采用本方法构建了一种基于集成学习和注意力机制的卷积神经网络(EACNN)模型来过滤无用的网页。首先,根据网页上不同种类的HTML标签数据,构建多个基于注意力机制的卷积神经网络(CNN)基学习器;然后,采用基于网页结构特征的集成学习方法对不同基学习器的输出结果执行不同的权重计算,从而实现EACNN的构建;最后,将EACNN的输出结果作为网页内容分析结果,从而实现网页黑名单的判别。所提方法通过注意力机制来关注网页语义信息,并通过集成学习的方式引入网页结构特征。实验结果表明,与支持向量机(SVM)、K近邻(KNN)、CNN、长短期记忆(LSTM)网络、GRU、结合注意力机制的卷积神经网络(ACNN)等基线模型相比,所提模型在所构建的面向地理信息领域的判别数据集上具有最高的准确率(0.97)、召回率(0.95)和F1分值(0.96),验证了EACNN在网页黑名单判别工作中的优势。
展开更多
关键词
网页
黑名单
判别模型
网页结构
特征
语义信息
注意力机制
集成学习
深度学习
在线阅读
下载PDF
职称材料
利用扩展锚点文本来分类网页
被引量:
1
15
作者
刘红
《计算机应用研究》
CSCD
北大核心
2004年第3期112-113,124,共3页
在以往一些分类方法的基础上,通过分析网页自身的结构,提出了一种利用扩展锚点文本来对网页进行自动分类的方法。
关键词
网页
分类:
网页结构
锚点文本
扩展锚点文本
在线阅读
下载PDF
职称材料
基于MD5的网页去重算法的设计与研究
被引量:
1
16
作者
闫俊伢
《实验室研究与探索》
CAS
北大核心
2013年第12期105-108,共4页
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重...
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重算法,并从算法内容、算法特征、算法设计进行了阐述,实验表明该方法对提高查全率和查准率具有很好的效果。
展开更多
关键词
结构
化
网页
MD5
网页
去重
去重算法
在线阅读
下载PDF
职称材料
基于历史网页的事件报导信息系统设计与分析
被引量:
3
17
作者
黄连恩
李晓明
《计算机工程与科学》
CSCD
2008年第2期1-4,8,共5页
Webinfomall是北京大学网络实验室从2001年开始建设的中国网页档案馆。迄今,它已经收藏了自2002年初以来出现在中国互联网上的近30亿网页,而且以每天100~200万网页的速度在不断增加。这些网页不仅来源于不同的URL,而且还包含同一个URL...
Webinfomall是北京大学网络实验室从2001年开始建设的中国网页档案馆。迄今,它已经收藏了自2002年初以来出现在中国互联网上的近30亿网页,而且以每天100~200万网页的速度在不断增加。这些网页不仅来源于不同的URL,而且还包含同一个URL的不同内容版本,其中许多内容目前在中国互联网上已经不复存在。如何在这样一个海量信息系统中开展有效的信息挖掘是我们面对的一个基本问题。本文描述一个实验性系统(HisTrace)框架。该系统旨在支持人们从Webinfomall中尽量准确、完整地提取与重要历史事件相关的网络新闻报道,并按照报道发生的时间顺序将它们不重复地展示出来。由于Webinfomall的海量性,也由于网络信息的复杂性和随意性,这其中有不少挑战。本文对其中的主要环节进行了分析。最后,我们简要介绍了系统的初步实现情况。
展开更多
关键词
网络信息挖掘
网页
内容分析
文本消重
网页
链接
结构
信息压缩
在线阅读
下载PDF
职称材料
基于路径学习的信息自动抽取方法
被引量:
7
18
作者
于琨
蔡智
+1 位作者
糜仲春
蔡庆生
《小型微型计算机系统》
CSCD
北大核心
2003年第12期2147-2149,共3页
针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习...
针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习的信息自动抽取方法 ,并采用该方法编制了一个商品价格信息自动抽取系统 .实验结果表明 ,该方法具有用户负担较轻 (只需用户提供 2~ 4个学习实例 )、查全率 (97.0 4~ 10 0 % )与查准率 (99~ 10 0 % )高、可实现大样本量信息抽取和时间资源耗费少 (抽取时间 <1秒 )等特点 ,能基本满足网页信息自动抽取的要求 .
展开更多
关键词
信息自动抽取
路径学习
互联网
网页结构
分析
归纳学习
在线阅读
下载PDF
职称材料
基于PageRank算法的权威值不均衡分配问题
被引量:
20
19
作者
田甜
倪林
《计算机工程》
CAS
CSCD
北大核心
2007年第18期53-55,共3页
PageRank对所链接的网页的"权威值"存在平均分配的思想,由于互联网的网页是千差万别的,因此这种方法存在一定的局限性。该文利用了Web链接结构,提出了一种权威值不均衡分配的方法(IPR),通过与PageRank算法相比,IPR的排序结果...
PageRank对所链接的网页的"权威值"存在平均分配的思想,由于互联网的网页是千差万别的,因此这种方法存在一定的局限性。该文利用了Web链接结构,提出了一种权威值不均衡分配的方法(IPR),通过与PageRank算法相比,IPR的排序结果比PageRank提高了近90%的相关度。
展开更多
关键词
网页结构
挖掘
网页
排序
改进的PageRank
在线阅读
下载PDF
职称材料
基于Bayes概率的用户兴趣发现
被引量:
3
20
作者
李晓丽
杜振龙
+1 位作者
李明
余冬梅
《计算机工程与科学》
CSCD
2003年第5期17-19,26,共4页
本文结合网页结构,充分考虑用户在网页的滞留时间和页面切换,基于Bayes概率提出了一种能挖掘出优良的用户兴趣迁移模式及感兴趣的页面。采用本文提出的思想及算法,再结合人工智能策略,将能更好地辅助网站设计,并为电子商务的决策提供充...
本文结合网页结构,充分考虑用户在网页的滞留时间和页面切换,基于Bayes概率提出了一种能挖掘出优良的用户兴趣迁移模式及感兴趣的页面。采用本文提出的思想及算法,再结合人工智能策略,将能更好地辅助网站设计,并为电子商务的决策提供充分依据。
展开更多
关键词
网页结构
Bayes概率
用户兴趣发现
电子商务
在线阅读
下载PDF
职称材料
题名
基于网页结构树的Web信息抽取方法
被引量:
24
1
作者
陈琼
苏文健
机构
华南理工大学计算机科学与工程学院
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第20期54-55,140,共3页
基金
国家自然科学基金资助项目(60003019)
广东省自然科学基金资助项目(990582)
广东省科技攻关资助项目项目(C10201)
文摘
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。
关键词
信息抽取
半
结构
网页结构
树
模式
Keywords
Information extraction
Semi-structure
Web page structure tree
Pattern
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
一种改进的基于树路径匹配的网页结构相似度算法
被引量:
7
2
作者
廖浩伟
杨燕
贾真
尹红风
机构
西南交通大学信息科学与技术学院
出处
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2012年第6期1199-1203,共5页
基金
国家自然科学基金(批准号:61152001:61170111)
中国科学院自动化研究所复杂系统管理与控制重点实验室开放课题基金(批准号:20110102)
中央高校基本科研业务费专项基金(批准号:SWJTU11ZT08)
文摘
提出一种改进的基于树路径匹配的网页结构相似度算法,该算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度.实验结果表明,用改进后的算法计算网页结构相似度比传统树路径匹配方法更符合实际,更合理有效.
关键词
网页结构
相似度
序列相似度
位置相似度
Keywords
Web structure similarity
sequence similarity
position similarity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
网页结构类型对大学生记忆效果影响的研究
被引量:
4
3
作者
曹卫真
罗思瑜
邢强
祁禄
机构
广州大学教育学院
出处
《电化教育研究》
CSSCI
北大核心
2010年第8期71-76,81,共7页
文摘
本研究以网络课程的教学内容呈现页面为实验材料,采用眼动追踪技术,探讨网页结构类型对我国大学生认知有效性的影响。在此基础上,进一步探讨同一网页结构中,导航有无装饰背景和内容呈现区有无装饰背景对大学生的眼动模式和认知效果的影响。本研究结果显示:有上导航且左边是侧导航、右边是内容呈现区的网页结构更能维持大学生的兴趣和注意,并且更有利于大学生的记忆;相同网页结构中,导航有无装饰背景和内容呈现区有无装饰背景对大学生认知有效性的影响没有很大的差别。
关键词
大学生
网页结构
认知
有效性
眼动
分类号
G434 [文化科学—教育技术学]
在线阅读
下载PDF
职称材料
题名
基于网页结构挖掘的信息提取
被引量:
2
4
作者
李媛
耿桦
张甍
潘金贵
机构
南京大学计算机软件新技术国家重点实验室
出处
《计算机科学》
CSCD
北大核心
2006年第3期191-193,218,共4页
文摘
本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析。
关键词
信息提取
网页结构
挖掘
重复模式
时间特征
RSS
Keywords
Information extraction, Mining structures of Web pages, Repeated pattern, Time characteristic, RSS
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
TP311.5 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于B/S架构的Web网页结构检测应用研究
被引量:
2
5
作者
陈圣俭
孙明涛
机构
华北电力大学计算机科学与技术学院
出处
《现代电子技术》
2009年第2期135-138,共4页
文摘
随着互联网的普及,大型的跨国公司要求公司对内对外的所有网站都遵循统一的框架结构,因此为了判断网页结构是否符合标准,需要对网页结构进行检测。Web结构分析是指从Web文档中自动分析网页结构的过程,检测不符合标准的网页。依据W3C Markup Validation Service的设计理念,基于DOM结构树和正则表达式的操作,以分析Web网页结构为基础,提出了Web页面结构检测的设计思想。在解析Html和CSS代码的基础上,网页结构检测正确率达到80%以上。
关键词
正则表达式
网页结构
树
检测
文档对象模型
属性元素
Keywords
regular expression
web page structure tree
inspection
document object model
attribute element
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于网页结构的网站无障碍抽样方法
6
作者
李飞
李晗静
姚登峰
吕会华
机构
北京联合大学
北京联合大学特殊教育学院
出处
《现代电子技术》
北大核心
2018年第21期80-83,共4页
基金
国家语委重点项目(ZDI135-31)
北京教育科学规划重点课题(ADA14121)
北京市属高校高水平教师队伍建设创新团队建设提升计划(IDHT20170511)~~
文摘
为测试网站的无障碍程度,需要测试网站中所有网页的无障碍性。对于大型网站,直接测试所有网页是耗时而昂贵的。在实践中,通常选择有代表性的样本进行测试,作为整个网站的测试结果。测试的结果完全依赖于所选择的页面,因此,采样方法不好可能会导致采样偏差过大,影响测试结果。为了解决这个问题,提出一种基于网页结构的抽取采样方法,以获得网站的评估结果。根据网页结构的相似性对整个网站进行分类,将网站无障碍测试转换为几类网页的评估,从而避免测试的高昂成本问题。实验结果表明,基于网页结构的网页抽样比现有的方法更精确,更好地反映了网站的无障碍水平。
关键词
网站可达性
网站测试
网页结构
网页
评估
采样方法
网页
抽样
Keywords
website accessibility
website test
webpage structure
webpage assessment
sampling method
webpage sampling
分类号
TN711-34 [电子电信—电路与系统]
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于网页结构的网站检测研究
7
作者
李大辉
何清刚
王佰玲
邹新一
机构
哈尔滨工业大学计算机科学与技术学院
出处
《高技术通讯》
CAS
CSCD
北大核心
2015年第10期912-918,共7页
基金
国家自然科学基金(61170262
61371177)资助项目
文摘
为了准确检测出仿冒网站,提出了一种基于网页结构的页面相似度计算方法。该方法首先将网页分块并进行合理的筛选,其次通过初步比对确定相似节点群,最后将网页数据量化并计算出网页是否相似。试验表明,该方法可以有效地检测出网页相似情况,对于仿冒网站的镜像尤其明显,误报率及漏报率均不超过10%。
关键词
网页结构
节点筛选
网页
比对
Keywords
we.bpage structure, node selection, webpage comparison
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于OWL的网页视觉结构本体表示和Web检索
被引量:
3
8
作者
林菡
何钦铭
机构
浙江大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2004年第15期157-160,共4页
文摘
随着网络信息内容的激增,为Web信息挖掘带来了一系列的困难。目前的Web检索主要在网页的内容上展开,往往忽视了网页结构蕴含的丰富信息。该文提出的网页视觉结构本体的构建,摆脱了以往领域本体仅在网页内容上辅助挖掘的局限,充分地挖掘了网页的视觉信息和结构信息,结合视觉重要性判定的领域知识本体来辅助Web检索,同时结合OWL语言达到机器理解的目的和知识级上的共享。
关键词
本体
网页结构
本体
OWL语言
语义WEB
机器学习
重要性判断
WEB检索
Keywords
ontology,webpage vision structure ontology,Ontology Web Language,Semantic Web,machine learning,importance judgement ,Web search
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
一种全自动生成网页信息抽取Wrapper的方法
被引量:
21
9
作者
梅雪
程学旗
郭岩
张刚
丁国栋
机构
中国科学院计算技术研究所
出处
《中文信息学报》
CSCD
北大核心
2008年第1期22-29,共8页
基金
国家高技术研究发展计划(863)资助项目(2005AA142110)
文摘
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。
关键词
计算机应用
中文信息处理
网页
信息抽取
网页结构
分离
包装器
Keywords
computer application
Chinese information processing
Web information extraction
Web structure se-perator
wrapper
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
试论Internet远程网络教学及其网页设计
被引量:
19
10
作者
章国英
叶春阳
邓秋军
机构
第二军医大学
出处
《电化教育研究》
北大核心
1999年第4期38-40,共3页
文摘
本文阐述了远程网络教学的特点、教学方式,介绍了教学网页的构成要素及网页设计的原则。
关键词
远程网络教学
网页
课件
构成要素
网页结构
设计
分类号
G434 [文化科学—教育技术学]
在线阅读
下载PDF
职称材料
题名
主题网页标签树邻接矩阵识别算法研究
被引量:
2
11
作者
宋军
杨晓夫
李益才
王家伟
机构
重庆交通大学信息科学与工程学院
出处
《计算机科学》
CSCD
北大核心
2016年第6期316-320,共5页
基金
国家自然科学基金(61573076)资助
文摘
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。
关键词
网页结构
HTML标签
标签树邻接矩阵
Keywords
Web page structure, Html tag,Tag tree adjacency matrix
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于链路压缩树的网页相似度研究
被引量:
2
12
作者
宋明秋
张瑞雪
机构
大连理工大学系统工程研究所
出处
《情报学报》
CSSCI
北大核心
2012年第1期40-46,共7页
基金
国家自然科学基金资助项目(70671016).
文摘
大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页。HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构。网页的相似性表现结构上就是结构相似性。研究网页结构相似性的方法有很多,本文从DOM树中的链路结构的角度来研究不同网页间的相似性,并提出了基于链路压缩树的结构相似度度量模型。本文中的计算方法都用Python语言实现。通过实验,本文使用多种方法对不同网页间的相似度进行了计算和分析,实验数据表明,基于链路压缩树的结构相似度度量模型具有较好的适用性,其速度是传统方法不可比拟的。
关键词
网页结构
链路相似度
结构
相似度
链路压缩树
Keywords
Web structure, path similarity, structural similarity, path pressed tree
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
一种改进的树路径模型在网页聚类中的研究
被引量:
1
13
作者
王亚普
王志坚
叶枫
机构
河海大学计算机与信息学院
南京航空航天大学计算机科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2015年第5期109-113,共5页
基金
江苏水利科技项目:"智慧河流"研究及其在六合滁河管理中的应用(2013025)
河海大学中央高校基本科研业务费项目(2009B21614)资助
文摘
相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤。对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善。传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完全匹配时更精确地描述路径之间的相似度。因此,从网页结构相似度入手,提出了一种改进的树路径模型。该模型充分考虑了兄弟节点之间的关系、路径位置以及路径权重,弥补了传统树路径模型无法表达文档结构和层次信息的缺陷。实验结果表明,该模型提高了识别网页结构相似性的能力,既能对结构差别较大的网页进行良好的区分,又能较好地反映来自同一模板的网页之间的差异性,同时在网页聚类中具有更优的效果。
关键词
信息提取
网页结构
相似度
树路径模型
聚类
Keywords
Information extraction, Web page structure, Similarity, Tree path model, Clustering
分类号
TP311.5 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于注意力机制和集成学习的网页黑名单判别方法
被引量:
2
14
作者
周超然
赵建平
马太
周欣
机构
长春理工大学计算机科学技术学院
出处
《计算机应用》
CSCD
北大核心
2021年第1期133-138,共6页
基金
吉林省科技发展计划项目(20190303133SF)
吉林省教育厅“十三五”科学技术项目(JJKH20200796KJ)。
文摘
搜索引擎作为互联网主要应用之一,能够根据用户需求从互联网资源中检索并返回有效信息。然而,得到的返回列表往往包含广告和失效网页等噪声信息,而这些信息会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息,提出了一种基于注意力机制和集成学习的网页黑名单判别方法,并采用本方法构建了一种基于集成学习和注意力机制的卷积神经网络(EACNN)模型来过滤无用的网页。首先,根据网页上不同种类的HTML标签数据,构建多个基于注意力机制的卷积神经网络(CNN)基学习器;然后,采用基于网页结构特征的集成学习方法对不同基学习器的输出结果执行不同的权重计算,从而实现EACNN的构建;最后,将EACNN的输出结果作为网页内容分析结果,从而实现网页黑名单的判别。所提方法通过注意力机制来关注网页语义信息,并通过集成学习的方式引入网页结构特征。实验结果表明,与支持向量机(SVM)、K近邻(KNN)、CNN、长短期记忆(LSTM)网络、GRU、结合注意力机制的卷积神经网络(ACNN)等基线模型相比,所提模型在所构建的面向地理信息领域的判别数据集上具有最高的准确率(0.97)、召回率(0.95)和F1分值(0.96),验证了EACNN在网页黑名单判别工作中的优势。
关键词
网页
黑名单
判别模型
网页结构
特征
语义信息
注意力机制
集成学习
深度学习
Keywords
Web page blacklist
discrimination model
Web structural feature
semantic information
attention mechanism
ensemble learning
deep learning
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
利用扩展锚点文本来分类网页
被引量:
1
15
作者
刘红
机构
南京政治学院上海分院信息管理系
出处
《计算机应用研究》
CSCD
北大核心
2004年第3期112-113,124,共3页
文摘
在以往一些分类方法的基础上,通过分析网页自身的结构,提出了一种利用扩展锚点文本来对网页进行自动分类的方法。
关键词
网页
分类:
网页结构
锚点文本
扩展锚点文本
Keywords
Web Page Classification
Web Structrue
Anchortext
Extented Anchortext
分类号
TP274.3 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
基于MD5的网页去重算法的设计与研究
被引量:
1
16
作者
闫俊伢
机构
山西大学商务学院
出处
《实验室研究与探索》
CAS
北大核心
2013年第12期105-108,共4页
基金
山西省科学技术厅软科学研究项目(2013041049-03)
山西省教育科学规划课题(GH-11178)
文摘
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重算法,并从算法内容、算法特征、算法设计进行了阐述,实验表明该方法对提高查全率和查准率具有很好的效果。
关键词
结构
化
网页
MD5
网页
去重
去重算法
Keywords
structured Web
MD5
eliminating repetitive of network
eliminating repetitive algorithm
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于历史网页的事件报导信息系统设计与分析
被引量:
3
17
作者
黄连恩
李晓明
机构
北京大学信息科学与技术学院
出处
《计算机工程与科学》
CSCD
2008年第2期1-4,8,共5页
基金
国家自然科学基金资助项目(60573166)
国家863计划资助项目(2007AA01Z100)
文摘
Webinfomall是北京大学网络实验室从2001年开始建设的中国网页档案馆。迄今,它已经收藏了自2002年初以来出现在中国互联网上的近30亿网页,而且以每天100~200万网页的速度在不断增加。这些网页不仅来源于不同的URL,而且还包含同一个URL的不同内容版本,其中许多内容目前在中国互联网上已经不复存在。如何在这样一个海量信息系统中开展有效的信息挖掘是我们面对的一个基本问题。本文描述一个实验性系统(HisTrace)框架。该系统旨在支持人们从Webinfomall中尽量准确、完整地提取与重要历史事件相关的网络新闻报道,并按照报道发生的时间顺序将它们不重复地展示出来。由于Webinfomall的海量性,也由于网络信息的复杂性和随意性,这其中有不少挑战。本文对其中的主要环节进行了分析。最后,我们简要介绍了系统的初步实现情况。
关键词
网络信息挖掘
网页
内容分析
文本消重
网页
链接
结构
信息压缩
Keywords
web archive
text mining
link analysis
replica detection
information compression
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于路径学习的信息自动抽取方法
被引量:
7
18
作者
于琨
蔡智
糜仲春
蔡庆生
机构
中国科学技术大学计算机科学技术系
中国科学技术大学信息管理与决策科学系
出处
《小型微型计算机系统》
CSCD
北大核心
2003年第12期2147-2149,共3页
基金
国家自然科学基金项目 (70 1 71 0 52
60 0 750 1 5)资助
文摘
针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习的信息自动抽取方法 ,并采用该方法编制了一个商品价格信息自动抽取系统 .实验结果表明 ,该方法具有用户负担较轻 (只需用户提供 2~ 4个学习实例 )、查全率 (97.0 4~ 10 0 % )与查准率 (99~ 10 0 % )高、可实现大样本量信息抽取和时间资源耗费少 (抽取时间 <1秒 )等特点 ,能基本满足网页信息自动抽取的要求 .
关键词
信息自动抽取
路径学习
互联网
网页结构
分析
归纳学习
Keywords
information retrieval
path learning
Internet
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于PageRank算法的权威值不均衡分配问题
被引量:
20
19
作者
田甜
倪林
机构
中国科技大学电子工程与信息科学系
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第18期53-55,共3页
基金
国家自然科学基金资助项目(60372059)
安徽省自然科学基金资助项目(03042206)
文摘
PageRank对所链接的网页的"权威值"存在平均分配的思想,由于互联网的网页是千差万别的,因此这种方法存在一定的局限性。该文利用了Web链接结构,提出了一种权威值不均衡分配的方法(IPR),通过与PageRank算法相比,IPR的排序结果比PageRank提高了近90%的相关度。
关键词
网页结构
挖掘
网页
排序
改进的PageRank
Keywords
Web structure mining
page ranking
improved PageRank(IPR)
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于Bayes概率的用户兴趣发现
被引量:
3
20
作者
李晓丽
杜振龙
李明
余冬梅
机构
甘肃工业大学电气工程与信息工程学院
出处
《计算机工程与科学》
CSCD
2003年第5期17-19,26,共4页
基金
甘肃省科技攻关基金(219903)
甘肃工业大学科研基金(0261)
文摘
本文结合网页结构,充分考虑用户在网页的滞留时间和页面切换,基于Bayes概率提出了一种能挖掘出优良的用户兴趣迁移模式及感兴趣的页面。采用本文提出的思想及算法,再结合人工智能策略,将能更好地辅助网站设计,并为电子商务的决策提供充分依据。
关键词
网页结构
Bayes概率
用户兴趣发现
电子商务
Keywords
Web log file
Web mining
user interest pattern
Bayesian probability
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
F713.36 [经济管理—产业经济]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于网页结构树的Web信息抽取方法
陈琼
苏文健
《计算机工程》
EI
CAS
CSCD
北大核心
2005
24
在线阅读
下载PDF
职称材料
2
一种改进的基于树路径匹配的网页结构相似度算法
廖浩伟
杨燕
贾真
尹红风
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2012
7
在线阅读
下载PDF
职称材料
3
网页结构类型对大学生记忆效果影响的研究
曹卫真
罗思瑜
邢强
祁禄
《电化教育研究》
CSSCI
北大核心
2010
4
在线阅读
下载PDF
职称材料
4
基于网页结构挖掘的信息提取
李媛
耿桦
张甍
潘金贵
《计算机科学》
CSCD
北大核心
2006
2
在线阅读
下载PDF
职称材料
5
基于B/S架构的Web网页结构检测应用研究
陈圣俭
孙明涛
《现代电子技术》
2009
2
在线阅读
下载PDF
职称材料
6
基于网页结构的网站无障碍抽样方法
李飞
李晗静
姚登峰
吕会华
《现代电子技术》
北大核心
2018
0
在线阅读
下载PDF
职称材料
7
基于网页结构的网站检测研究
李大辉
何清刚
王佰玲
邹新一
《高技术通讯》
CAS
CSCD
北大核心
2015
0
在线阅读
下载PDF
职称材料
8
基于OWL的网页视觉结构本体表示和Web检索
林菡
何钦铭
《计算机工程与应用》
CSCD
北大核心
2004
3
在线阅读
下载PDF
职称材料
9
一种全自动生成网页信息抽取Wrapper的方法
梅雪
程学旗
郭岩
张刚
丁国栋
《中文信息学报》
CSCD
北大核心
2008
21
在线阅读
下载PDF
职称材料
10
试论Internet远程网络教学及其网页设计
章国英
叶春阳
邓秋军
《电化教育研究》
北大核心
1999
19
在线阅读
下载PDF
职称材料
11
主题网页标签树邻接矩阵识别算法研究
宋军
杨晓夫
李益才
王家伟
《计算机科学》
CSCD
北大核心
2016
2
在线阅读
下载PDF
职称材料
12
基于链路压缩树的网页相似度研究
宋明秋
张瑞雪
《情报学报》
CSSCI
北大核心
2012
2
在线阅读
下载PDF
职称材料
13
一种改进的树路径模型在网页聚类中的研究
王亚普
王志坚
叶枫
《计算机科学》
CSCD
北大核心
2015
1
在线阅读
下载PDF
职称材料
14
基于注意力机制和集成学习的网页黑名单判别方法
周超然
赵建平
马太
周欣
《计算机应用》
CSCD
北大核心
2021
2
在线阅读
下载PDF
职称材料
15
利用扩展锚点文本来分类网页
刘红
《计算机应用研究》
CSCD
北大核心
2004
1
在线阅读
下载PDF
职称材料
16
基于MD5的网页去重算法的设计与研究
闫俊伢
《实验室研究与探索》
CAS
北大核心
2013
1
在线阅读
下载PDF
职称材料
17
基于历史网页的事件报导信息系统设计与分析
黄连恩
李晓明
《计算机工程与科学》
CSCD
2008
3
在线阅读
下载PDF
职称材料
18
基于路径学习的信息自动抽取方法
于琨
蔡智
糜仲春
蔡庆生
《小型微型计算机系统》
CSCD
北大核心
2003
7
在线阅读
下载PDF
职称材料
19
基于PageRank算法的权威值不均衡分配问题
田甜
倪林
《计算机工程》
CAS
CSCD
北大核心
2007
20
在线阅读
下载PDF
职称材料
20
基于Bayes概率的用户兴趣发现
李晓丽
杜振龙
李明
余冬梅
《计算机工程与科学》
CSCD
2003
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部