-
题名Web数据管理研究进展
被引量:2
- 1
-
-
作者
王晖
彭智勇
李蓉蓉
徐波
翟卫祥
-
机构
武汉大学软件工程国家重点实验室
武汉大学计算机学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2011年第1期1-8,共8页
-
基金
国家"九七三"重点基础研究发展计划基金项目(2007CB310806)资助
-
文摘
Web数据管理是研究如何根据动态的用户需求从动态的数据源中获取和管理Web数据.本文综述了近10年来该领域的相关文献,针对Web数据管理所必需的数据获取、数据管理和数据服务三大功能,对元搜索技术、数据空间以及跨媒体技术的研究现状和研究成果进行了总结和分析.最后,讨论Web数据管理系统中存在的问题,从数据质量、系统一致性维护以及个性化服务三个方面对未来研究进行了展望.
-
关键词
web数据管理
元搜索
数据空间
跨媒体
-
Keywords
web data management
meta search engine
data-space
cross-media
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web数据管理研究综述
被引量:83
- 2
-
-
作者
孟小峰
-
机构
中国人民大学信息学院计算机科学系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第4期385-395,共11页
-
基金
国家自然科学基金项目
国家"八六三"高技术研究发展计划基金项目资助
-
文摘
综述了 Web数据管理技术 .对 Web数据管理的研究给出了定义 .就 Web数据管理的几个重要问题给出了阐述 .在此基础上提出了一种基于 XML 的
-
关键词
web数据管理
半结构化数据模式
信息集成
数据模型
数据库
计算机
-
Keywords
web data management, semistructured data, XML, schema extraction, information integration, information dissemination
-
分类号
TP311.132
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web大数据环境下的不一致跨源数据发现
被引量:24
- 3
-
-
作者
余伟
李石君
杨莎
胡亚慧
刘晶
丁永刚
王骞
-
机构
武汉大学计算机学院
汉口学院计算机科学与技术学院
空军预警学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第2期295-308,共14页
-
基金
国家自然科学基金项目(61272109)
中央高校基本科研业务费专项资金项目(2042014kf0057)
湖北省自然科学基金项目(2014CFB289)
-
文摘
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.
-
关键词
web大数据
web数据挖掘
数据一致性
web数据管理
数据质量评估
跨源数据分析
-
Keywords
web big data
web data mining
data consistency
web data management
data quality assessment
cross-source analysis
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web数据空间技术研究
被引量:5
- 4
-
-
作者
刘正涛
王建东
-
机构
南京航空航天大学信息科学与技术学院
三江学院计算机科学与工程学院
-
出处
《计算机工程与应用》
CSCD
2012年第7期12-19,共8页
-
基金
国家高技术研究发展计划(863)(No.2006AA12A106)
-
文摘
基于数据空间的概念,提出了一种新的Web数据管理方法:Web数据空间。阐述了Web数据空间概念及其特性。在此基础上,进一步从数据源的发现、模式匹配、数据模型、数据查询、数据演化、世系管理、群体协作与存储索引几个方面对Web数据空间相关研究工作进行了总结分析。最后讨论了Web数据空间研究面临的挑战与未来的研究工作。
-
关键词
web数据空间
数据集成
web数据管理
边建边用
-
Keywords
web dataspace
data integration
web data management
Pay-as-you-go
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名XML文档相似度计算方法研究
被引量:3
- 5
-
-
作者
谌志群
-
机构
杭州电子科技大学计算机应用技术研究所
-
出处
《情报学报》
CSSCI
北大核心
2009年第1期48-57,共10页
-
基金
浙江省自然科学基金资助项目(No.M603025)
-
文摘
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准。随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点。XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术。XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度。本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评。
-
关键词
XML文档
相似度计算
web数据管理
文本挖掘
-
Keywords
XML document, similarity computation, web data management, text mining
-
分类号
TP311.132
[自动化与计算机技术—计算机软件与理论]
TP18
[自动化与计算机技术—控制理论与控制工程]
-