期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于HTML特征与层次聚类的Web查询接口发现 被引量:4
1
作者 魏佳欣 叶飞跃 《计算机工程》 CAS CSCD 北大核心 2016年第2期56-61,共6页
针对各网站Web查询接口(WQI)因结构异构而难以被自动发现的问题,提出一种基于超级文本标记语言(HTML)特征和层次聚类的Web查询接口发现方法。利用HTML控件元素之间的层级结构、依附关系和HTML交互控件的终端特性,通过前序和后序遍历相... 针对各网站Web查询接口(WQI)因结构异构而难以被自动发现的问题,提出一种基于超级文本标记语言(HTML)特征和层次聚类的Web查询接口发现方法。利用HTML控件元素之间的层级结构、依附关系和HTML交互控件的终端特性,通过前序和后序遍历相结合的方式解析页面,建立合适的页面树状模型。按照查询区域交互密度的局部集中性定位并初始化聚类集合。将聚类集合中各潜在接口区域结构距离的相似性进行层次聚类,并对所得潜在接口中的交互控件选择合适的文本节点进行语义标注,得出完整WQI区域,利用接口中的文本特征过滤非查询接口。实验结果表明,该方法克服了传统方法对<form>标签的过度依赖,具有较强的通用性,接口识别率与准确率分别达到90.7%和92%。 展开更多
关键词 Web查询接口 超级文本标记语言 层次聚类 结构距离 交互密度 文本过滤器
在线阅读 下载PDF
基于XML的互连网信息资源描述及其应用研究 被引量:6
2
作者 周杰韩 曾庆良 +1 位作者 谢金崇 熊光楞 《计算机工程与应用》 CSCD 北大核心 2002年第3期65-67,共3页
XML作为有效组织网络资源的一种技术正引起世界各国的重视。该文对比HTML,研究了XML语言的技术特征。对比数据结构,研究了XML文档结构定义的本质。研究了基于XML的信息资源描述与交换机制。给出了XML标准的应用层次及其应用类型。
关键词 互连网 信息资源 XML 文本挖掘 计算机网络
在线阅读 下载PDF
一种基于向量空间模型的文本分类方法 被引量:31
3
作者 李雪蕾 张冬茉 《计算机工程》 CAS CSCD 北大核心 2003年第17期90-92,共3页
介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型。这一模型的关键算法主要利用字间的相关信息、... 介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型。这一模型的关键算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类。这种分类方法在相似文本分类中具有明显的优势。 展开更多
关键词 文本分类 超文本描述语言 可分性判据 层次分类
在线阅读 下载PDF
基于网页源码结构理解的自适应爬虫代码生成方法 被引量:5
4
作者 刘耀 刘茹 翟雨 《计算机应用》 CSCD 北大核心 2023年第6期1779-1784,共6页
针对网页频繁改版带来的网页源码变动,尤其是文章日期、正文或来源机构等网页源码中目标实体的元素结构或属性标识变动所引起的爬虫代码失效、人力维护成本过高的问题,提出一种基于网页源码结构理解的自适应爬虫代码生成方法。首先,通... 针对网页频繁改版带来的网页源码变动,尤其是文章日期、正文或来源机构等网页源码中目标实体的元素结构或属性标识变动所引起的爬虫代码失效、人力维护成本过高的问题,提出一种基于网页源码结构理解的自适应爬虫代码生成方法。首先,通过分析网页结构特征变动规律提取相应爬虫代码;然后,利用Encoder-Decoder模型表征网页源码及代码的变动,通过融合网页源码自身结构语义特征、网页源码变动特征及网页代码变动特征,得到自适应代码生成模型;最后,完善自适应系统的感知、生成和激活机制,从而形成具有自适应处理能力的爬虫系统。经实验验证,所提自适应代码生成模型的最终准确率为78.5%,与TF-IDF+Seq2Seq和TriDNR+Seq2Seq两种生成模型相比,所提模型在网页源码变动的表示和代码生成的有效性上具有一定的优越性。因此,所提方法能够解决网页源码变动引起的爬虫代码运行问题,为网络资源获取即爬虫技术的自适应处理能力提供新思路。 展开更多
关键词 资源获取 网页改版 超文本标记语言 网页源码理解 自适应网络爬虫
在线阅读 下载PDF
基于超文本标记语言5的横编计算机辅助设计系统 被引量:8
5
作者 高梓越 丛洪莲 +3 位作者 蒋高明 王薇 汤梦婷 于璐璐 《纺织学报》 EI CAS CSCD 北大核心 2017年第10期132-137,共6页
为满足横编针织物在线设计的需求,在传统横编计算机辅助设计(CAD)的基础上,基于超文本标记语言5(HTML5)技术设计并实现互联网横编CAD系统。根据横编针织物的设计特点和成形原理,分别对花型数据和成形数据进行数学建模和数据结构优化,实... 为满足横编针织物在线设计的需求,在传统横编计算机辅助设计(CAD)的基础上,基于超文本标记语言5(HTML5)技术设计并实现互联网横编CAD系统。根据横编针织物的设计特点和成形原理,分别对花型数据和成形数据进行数学建模和数据结构优化,实现多视图设计和成形工艺设计。同时,结合数据库技术开发款式与组织库自定义的功能,并在研究花型编译的基础上,实现上机文件的生成。此外,研究了软件架构,基于B/S模式将程序部署在服务器上,系统的运行则在客户端,从而实现了数据处理与显示的分离。最后,通过提花围巾设计实例进行系统检验,结果表明该系统设计织物直观方便效率高,满足横编针织物在线设计的需求。 展开更多
关键词 在线设计 横编针织物 数据库 超文本标记语言5
在线阅读 下载PDF
Web 公共网关接口 CGI 运行机制分析 被引量:4
6
作者 任新华 柴晓光 《太原工业大学学报》 1997年第2期88-92,共5页
WWW(WorldWideWeb)是Internet上广泛应用的超媒体信息查询系统,其用户与服务器之间信息交互访问功能依靠使用公共网关接口CGI(CommonGatewayInterface)程序得以实现。本文对使用... WWW(WorldWideWeb)是Internet上广泛应用的超媒体信息查询系统,其用户与服务器之间信息交互访问功能依靠使用公共网关接口CGI(CommonGatewayInterface)程序得以实现。本文对使用CGI实现Web用户浏览器与HTTP服务器之间信息交互的运行机制进行了深入的分析,比较了多种数据传输方法的差异和优缺点,提出不同应用情况下使用CGI策略。 展开更多
关键词 公共网关接口 CGI WWW系统 超文本传输协议
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部