-
题名基于HTML树和模板的文献信息提取方法研究
被引量:7
- 1
-
-
作者
李文立
王乐超
宋春雷
-
机构
大连理工大学管理学院系统工程研究所
-
出处
《计算机应用研究》
CSCD
北大核心
2010年第12期4615-4617,共3页
-
基金
国家自然科学基金资助项目(70572099)
辽宁省自然科学基金资助项目(1050349)
-
文摘
教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。
-
关键词
网页信息提取
文档对象模型树
模板
文献信息搜集
-
Keywords
Web information extraction
DOM tree
template
document information extraction
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于网页DOM树比对的SQL注入漏洞检测
被引量:5
- 2
-
-
作者
张晨
汪永益
王雄
施凡
-
机构
电子工程学院网络工程系
-
出处
《计算机工程》
CAS
CSCD
2012年第18期111-115,共5页
-
文摘
针对传统SQL注入漏洞检测方法准确率不高的问题,提出一种基于网页文档对象模型(DOM)树比对结果的检测方法。通过简化基于节点序列的网页比对方法,减少节点比对次数,加快检测效率,并设计实现一个SQL注入漏洞检测原型系统。实验结果表明,该系统具有较高的SQL注入漏洞检测效率和准确率。
-
关键词
网页比对
SQL注入
注入漏洞检测
文档对象模型树
DOM树快速比对
-
Keywords
Webpage comparison; SQL injection; injection vulnerability detection; Document Object Model(DOM) tree; fast DOM tree comparison
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于DOM树和视觉特征的网页信息自动抽取
被引量:6
- 3
-
-
作者
黄武冠
朱明
尹文科
-
机构
中国科学技术大学自动化系
-
出处
《计算机工程》
CAS
CSCD
2013年第10期309-312,共4页
-
基金
国家科技支撑计划基金资助项目(2011BAH11B01)
中国科学院重点部署基金资助项目(KGZD-EW-103-(5))
-
文摘
针对生活信息服务网站的列表式商户信息,提出一种基于文档对象模型(DOM)树和视觉特征的网页信息自动抽取方法。利用商户信息列表页面中数据区域的DOM树结构和视觉特征,搜索得到候选目标数据区域,再利用视觉特征识别真正目标数据区域,从而抽取其中的数据记录。对10个生活信息服务网站进行测试,结果表明,有8个网站的召回率和准确率达到100%,取得了较好的结果。
-
关键词
文档对象模型树
视觉特征
自动抽取
数据记录
数据区域
挖掘算法
-
Keywords
Document Object Model(DOM) tree
visual feature
automatic extraction
data recording
data region
mining algorithm
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名节点频度和语义距离相结合的网页正文信息抽取
被引量:3
- 4
-
-
作者
孟军
刘秋水
王秀坤
-
机构
大连理工大学计算机科学与工程系
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第1期140-143,共4页
-
基金
国家自然科学基金~~
-
文摘
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。
-
关键词
信息提取
带有节点频度的文档对象模型树
节点频度
语义距离
-
Keywords
information extraction
Block node Frequency-Document Object Module(BF-DOM) tree
node frequency
semantic distance
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于WebKit内核的焦点查询策略研究与优化
被引量:1
- 5
-
-
作者
肖伟民
孙鹏
郭志川
胡琳琳
-
机构
中国科学院声学研究所国家网络新媒体工程技术研究中心
中国科学院大学
-
出处
《计算机应用与软件》
CSCD
2016年第10期77-81,共5页
-
基金
国家高技术研究发展计划项目(2015AA015802)
-
文摘
为解决智能电视平台上带内联框架的网页存在焦点查询不友好的问题,对基于WebKit内核的嵌入式浏览器焦点查询策略进行研究,详细说明该策略对焦点查询的执行过程,并针对带内联框架的网页存在的焦点查询不友好问题进行查询算法的优化。在智能电视平台上根据操控特征进行针对性优化,修正了焦点查询错误,大大提升了用户体验。实验结果表明,使用优化后的焦点查询策略在智能电视上可有效解决基于WebKit内核的嵌入式浏览器焦点查询错误问题。
-
关键词
WebKit内核
内联框架
文档对象模型树
焦点查询
优化
-
Keywords
WebKit kernel iframe;DOM tree;Focus query ;Optimisation
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于Webkit内核焦点查询算法的研究与优化
- 6
-
-
作者
刘秀秀
潘梁
郭志川
胡琳琳
-
机构
中国科学院大学
中国科学院声学研究所国家网络新媒体工程技术研究中心
-
出处
《计算机工程与设计》
北大核心
2016年第2期450-453,486,共5页
-
基金
中国科学院战略性先导科技专项基金项目(XDA06040501)
-
文摘
为解决智能电视用户操控网页时存在焦点移动不友好的问题,研究基于Webkit内核的嵌入式浏览器的焦点查询算法。对该算法查询焦点的执行过程进行详细说明,针对不同位置的节点间的距离计算方法进行特别描述,在智能电视上根据电视特征对该算法进行优化。通过设置焦点移动的步长和改变DOM节点间距离计算等方法,提升用户体验。实验结果表明,在智能电视上使用优化后的方法可更快选择合适的目标节点,改善了人机交互体验。
-
关键词
Webkit内核
文档对象模型树
渲染树
焦点查询算法
优化
-
Keywords
Webkit
DOM tree
render tree
focus query algorithm
optimization
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名网络蜘蛛在网络论坛领域的研究与设计
- 7
-
-
作者
滕召生
胡德敏
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2011年第2期492-494,520,共4页
-
文摘
为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构展现给用户。而这种布局结构可以通过DOM树体现出来,对DOM树进行操作,提取出URL,然后对重复的URL进行过滤。实验表明该爬行策略提高了网络蜘蛛爬行效率,节省网络带宽及本地存储空间。
-
关键词
网络蜘蛛
文档对象模型树
页面重复区域
爬行策略
重复模板
-
Keywords
Web spider
DOM(document object model)tree
repetitive region
crawling strategies
repetitive template
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于结构相似网页聚类的正文提取算法研究
被引量:2
- 8
-
-
作者
王海涌
冯兆旭
杨海波
张津栋
-
机构
兰州交通大学电子与信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2018年第11期122-127,139,共7页
-
基金
甘肃省自然科学基金(No.145RJZA086)
兰州交通大学科技支撑基金(No.ZC2014003)
兰州市科技计划项目(No.2013-3-79)
-
文摘
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。
-
关键词
正文提取
相似性
文档对象模型(DOM)树
层次聚类
-
Keywords
information extraction
similarity
Document Object Model(DOM) tree
hierarchical clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名Deep Web接口的自动识别技术研究
- 9
-
-
作者
杨永红
高磊
余航
徐欣辰
-
机构
中国石化胜利油田分公司勘探开发研究院
上海大学计算机工程与科学学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2017年第7期109-114,共6页
-
文摘
获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来实现的,目前大部分的研究以表单内的<form></form>标签获得表单内容结构,判断是不是一个Deep Web查询接口。提出了接口块的概念,设计了一种基于页面信息和视觉信息的接口块定位方法,最后将判定接口块是不是Deep Web接口看作是一个模式识别的分类问题,通过抽取适当的表单结构特征,采用C4.5决策树和SVM相结合的分类算法来进行接口块的判定,得到页面中含有的Deep Web查询接口。采用UIUC的TEL-8数据集进行实验,结果表明,该方法的准确率达到了97.30%,具有良好的可行性和实用性。
-
关键词
DeepWeb接口
文档对象化模型树
接口块
多类分类
-
Keywords
Deep Web interface
Document Object Model(DOM)tree
interface block
multi-class classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名支持局部更新的双向内容适配策略
- 10
-
-
作者
吕红亮
王劲林
邓峰
-
机构
中国科学院研究生院
中国科学院声学研究所国家网络新媒体工程技术研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第33期6-8,共3页
-
基金
国家高技术研究发展计划(863)No.2009AA01A338~~
-
文摘
内容适配旨在解决融合环境下多种终端兼容问题,现有的内容适配策略在用户通过受限终端进行更新时会造成信息丢失。提出一种支持局部更新的双向内容适配策略,该策略基于DOM树建立统一的存储模型对元数据和适配实例进行存储,当受限终端发起更新时,通过比较DOM树中的节点对元数据进行局部更新。实验结果表明,相比现有策略,支持局部更新的内容适配策略在大部分情况下可以减少60%以上的信息丢失。
-
关键词
融合环境
双向内容适配
局部更新
元数据
文档对象模型(DOM)树
-
Keywords
convergence environment
two-way content adaptation
partial update
metadata
Document Object Model(DOM) tree
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-