-
题名基于HTML特征与层次聚类的Web查询接口发现
被引量:4
- 1
-
-
作者
魏佳欣
叶飞跃
-
机构
上海大学计算机工程与科学学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第2期56-61,共6页
-
文摘
针对各网站Web查询接口(WQI)因结构异构而难以被自动发现的问题,提出一种基于超级文本标记语言(HTML)特征和层次聚类的Web查询接口发现方法。利用HTML控件元素之间的层级结构、依附关系和HTML交互控件的终端特性,通过前序和后序遍历相结合的方式解析页面,建立合适的页面树状模型。按照查询区域交互密度的局部集中性定位并初始化聚类集合。将聚类集合中各潜在接口区域结构距离的相似性进行层次聚类,并对所得潜在接口中的交互控件选择合适的文本节点进行语义标注,得出完整WQI区域,利用接口中的文本特征过滤非查询接口。实验结果表明,该方法克服了传统方法对<form>标签的过度依赖,具有较强的通用性,接口识别率与准确率分别达到90.7%和92%。
-
关键词
Web查询接口
超级文本标记语言
层次聚类
结构距离
交互密度
文本过滤器
-
Keywords
Web Query Interface(WQI)
hyper text markup language(html)
hierarchical clustering
structure distance
interaction density
text filter
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于XML的互连网信息资源描述及其应用研究
被引量:6
- 2
-
-
作者
周杰韩
曾庆良
谢金崇
熊光楞
-
机构
清华大学自动化系
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第3期65-67,共3页
-
基金
国家自然科学基金资助项目(编号:69884002)
清华大学985重大项目
-
文摘
XML作为有效组织网络资源的一种技术正引起世界各国的重视。该文对比HTML,研究了XML语言的技术特征。对比数据结构,研究了XML文档结构定义的本质。研究了基于XML的信息资源描述与交换机制。给出了XML标准的应用层次及其应用类型。
-
关键词
互连网
信息资源
XML
文本挖掘
计算机网络
-
Keywords
XML ,html ,Metadata,text Mining,markup language,Information Search,Knowledge Management
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于向量空间模型的文本分类方法
被引量:31
- 3
-
-
作者
李雪蕾
张冬茉
-
机构
上海交通大学计算机系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第17期90-92,共3页
-
文摘
介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型。这一模型的关键算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类。这种分类方法在相似文本分类中具有明显的优势。
-
关键词
文本分类
超文本描述语言
可分性判据
层次分类
-
Keywords
text categorization
hypertext markup language (html)
Separable criterion
Hierarchically categorization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于网页源码结构理解的自适应爬虫代码生成方法
被引量:5
- 4
-
-
作者
刘耀
刘茹
翟雨
-
机构
中国科学技术信息研究所信息技术支持中心
北京大学软件与微电子学院
-
出处
《计算机应用》
CSCD
北大核心
2023年第6期1779-1784,共6页
-
基金
国家社会科学基金资助项目(21BTQ011)
国家重点研发计划项目(2018YFB143502)。
-
文摘
针对网页频繁改版带来的网页源码变动,尤其是文章日期、正文或来源机构等网页源码中目标实体的元素结构或属性标识变动所引起的爬虫代码失效、人力维护成本过高的问题,提出一种基于网页源码结构理解的自适应爬虫代码生成方法。首先,通过分析网页结构特征变动规律提取相应爬虫代码;然后,利用Encoder-Decoder模型表征网页源码及代码的变动,通过融合网页源码自身结构语义特征、网页源码变动特征及网页代码变动特征,得到自适应代码生成模型;最后,完善自适应系统的感知、生成和激活机制,从而形成具有自适应处理能力的爬虫系统。经实验验证,所提自适应代码生成模型的最终准确率为78.5%,与TF-IDF+Seq2Seq和TriDNR+Seq2Seq两种生成模型相比,所提模型在网页源码变动的表示和代码生成的有效性上具有一定的优越性。因此,所提方法能够解决网页源码变动引起的爬虫代码运行问题,为网络资源获取即爬虫技术的自适应处理能力提供新思路。
-
关键词
资源获取
网页改版
超文本标记语言
网页源码理解
自适应网络爬虫
-
Keywords
resource acquisition
webpage redesign
hyper text markup language(html)
webpage source code comprehension
self-adaptive Web crawler
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于超文本标记语言5的横编计算机辅助设计系统
被引量:8
- 5
-
-
作者
高梓越
丛洪莲
蒋高明
王薇
汤梦婷
于璐璐
-
机构
江南大学教育部针织技术工程研究中心
生态纺织教育部重点实验室(江南大学)
-
出处
《纺织学报》
EI
CAS
CSCD
北大核心
2017年第10期132-137,共6页
-
基金
国家自然科学基金项目(61602212)
江苏省产学研联合创新资金-前瞻性联合研究项目(BY2016022-09
BY2016022-42)
-
文摘
为满足横编针织物在线设计的需求,在传统横编计算机辅助设计(CAD)的基础上,基于超文本标记语言5(HTML5)技术设计并实现互联网横编CAD系统。根据横编针织物的设计特点和成形原理,分别对花型数据和成形数据进行数学建模和数据结构优化,实现多视图设计和成形工艺设计。同时,结合数据库技术开发款式与组织库自定义的功能,并在研究花型编译的基础上,实现上机文件的生成。此外,研究了软件架构,基于B/S模式将程序部署在服务器上,系统的运行则在客户端,从而实现了数据处理与显示的分离。最后,通过提花围巾设计实例进行系统检验,结果表明该系统设计织物直观方便效率高,满足横编针织物在线设计的需求。
-
关键词
在线设计
横编针织物
数据库
超文本标记语言5
-
Keywords
on-line design
fiat-knitted fabric
data base
hyper text markup language 5
-
分类号
TS181.9
[轻工技术与工程—纺织材料与纺织品设计]
-
-
题名Web 公共网关接口 CGI 运行机制分析
被引量:4
- 6
-
-
作者
任新华
柴晓光
-
出处
《太原工业大学学报》
1997年第2期88-92,共5页
-
文摘
WWW(WorldWideWeb)是Internet上广泛应用的超媒体信息查询系统,其用户与服务器之间信息交互访问功能依靠使用公共网关接口CGI(CommonGatewayInterface)程序得以实现。本文对使用CGI实现Web用户浏览器与HTTP服务器之间信息交互的运行机制进行了深入的分析,比较了多种数据传输方法的差异和优缺点,提出不同应用情况下使用CGI策略。
-
关键词
公共网关接口
CGI
WWW系统
超文本传输协议
-
Keywords
common gateway interface, world wide web
HTTP
client/server mode
html (hyper text markup language)
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-