期刊文献+
共找到60篇文章
< 1 2 3 >
每页显示 20 50 100
Web大数据环境下的不一致跨源数据发现 被引量:24
1
作者 余伟 李石君 +4 位作者 杨莎 胡亚慧 刘晶 丁永刚 王骞 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期295-308,共14页
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源We... Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性. 展开更多
关键词 web大数据 web数据挖掘 数据一致性 web数据管理 数据质量评估 跨源数据分析
在线阅读 下载PDF
基于Web大数据挖掘的证券价格波动实时影响研究 被引量:8
2
作者 杨莎 余伟 +2 位作者 李石君 曹晶晶 刘晶 《计算机科学》 CSCD 北大核心 2015年第4期166-171,共6页
随着Web大数据的发展,互联网中海量、快捷的信息为证券市场变化预测提供了丰富的数据支撑,如何利用大数据分析技术进行实时可靠的证券市场价格变化预测成为重要的科学问题。从证券市场价格变化的核心价值问题研究出发,分析了股票价值所... 随着Web大数据的发展,互联网中海量、快捷的信息为证券市场变化预测提供了丰富的数据支撑,如何利用大数据分析技术进行实时可靠的证券市场价格变化预测成为重要的科学问题。从证券市场价格变化的核心价值问题研究出发,分析了股票价值所反映的基本面要求,建立了影响股票价值内涵和价格表现的10项准确可度量的特征因素:经济周期、财政政策、利率变动、汇率变动、物价变动、通货膨胀、政治政策、行业变化、经营状况、上下游影响等。在此基础上,构造互联网中信息内容与各个特征因素的提取方法、变化关系和影响模型,提出了针对大盘、行业、个股的互联网信息指标来反映Web数据对其的支撑程度,最终实现了基于Web大数据的综合特征因素度量来预测证券市场的方法。实验表明,该方法具有良好的可行性,将带来明显的学术和商业价值。 展开更多
关键词 数据挖掘 股票价格预测 web大数据
在线阅读 下载PDF
农业大数据浅析及与Web GIS结合应用 被引量:17
3
作者 刘勍 毛克彪 +2 位作者 马莹 韩家琪 夏浪 《遥感信息》 CSCD 北大核心 2016年第1期124-128,共5页
针对农业领域当前缺少量化数据支撑、数据挖掘能力不足和难以与空间数据结合分析等问题,提出将大数据技术与Web GIS应用到农业中的体系框架。借鉴国内外学者在大数据和Web GIS领域的研究成果,基于农业的具体行业特征,从数据采集、挖掘... 针对农业领域当前缺少量化数据支撑、数据挖掘能力不足和难以与空间数据结合分析等问题,提出将大数据技术与Web GIS应用到农业中的体系框架。借鉴国内外学者在大数据和Web GIS领域的研究成果,基于农业的具体行业特征,从数据采集、挖掘、应用3个方面入手,分析了大数据和Web GIS与农业的结合应用方式,提出应用体系框架并对各个部分加以解释。农业的稳定发展影响着国民经济与粮食安全战略,迫切需要利用大数据技术提高我国农业信息化程度,目前农业大数据研究尚处于初级阶段,需农业相关部门及社会各界予以关注支持。 展开更多
关键词 农业数据 大数据 web GIS 农业大数据 农业信息化
在线阅读 下载PDF
Web大数据环境下的相似重复数据清理 被引量:14
4
作者 王闪 谭良 《计算机工程与设计》 北大核心 2017年第3期646-651,共6页
为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中... 为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中一个及其副本,其余数据信息保存该数据信息的地址。使用该方法在Hadoop平台上对多个网站的Web数据进行实验,实验结果表明,该方法具有良好的精确性及数据缩减效果。 展开更多
关键词 web大数据 重复数据删除 数据清理 相似哈希 数据质量评估
在线阅读 下载PDF
大数据环境下Web数据源质量评估方法研究 被引量:19
5
作者 赵星 李石君 +3 位作者 余伟 杨莎 丁永刚 胡亚慧 《计算机工程》 CAS CSCD 北大核心 2017年第2期48-56,共9页
在大数据环境下Web数据资源的开放性和多源性使得不同互联网平台提供的数据质量参差不齐,严重影响人们从互联网中有效准确地获取信息。为此,提出一种Web数据源质量评估方法。建立面向多源互联网平台的统一数据模型和数据质量标准模型,... 在大数据环境下Web数据资源的开放性和多源性使得不同互联网平台提供的数据质量参差不齐,严重影响人们从互联网中有效准确地获取信息。为此,提出一种Web数据源质量评估方法。建立面向多源互联网平台的统一数据模型和数据质量标准模型,给出针对大数据全样本数据分析的质量标准度量和表示方法,并通过多维数据质量的综合评估实现Web数据源质量的统一度量。实验结果表明,该方法能全面度量互联网平台的数据质量,为用户提供准确高效的质量评价结果。 展开更多
关键词 大数据 web数据源 数据质量评估 全样本分析 MAPREDUCE框架
在线阅读 下载PDF
Web网络大数据的聚类中心调度技术研究 被引量:8
6
作者 肖铮 董祥千 赵文革 《现代电子技术》 北大核心 2017年第24期25-27,共3页
针对传统调度方法一直存在调度精度不准确的问题,提出一种Web网络大数据的聚类中心调度技术的研究方案。针对Web网络大数据重新建立调度模型有效的对数据进行识别,优化聚类中心的K-means算法,解决对大数据调度能力差的问题,提高聚类中... 针对传统调度方法一直存在调度精度不准确的问题,提出一种Web网络大数据的聚类中心调度技术的研究方案。针对Web网络大数据重新建立调度模型有效的对数据进行识别,优化聚类中心的K-means算法,解决对大数据调度能力差的问题,提高聚类中心的大数据调度能力,最后使用建立调度模型完成在Web网络大数据环境下的聚类中心数据调度。设计对比仿真试验,通过实验数据可以有效地证明Web网络大数据的聚类中心调度技术的有效性。 展开更多
关键词 web网络大数据 聚类中心 调度技术 数据识别 数据调度
在线阅读 下载PDF
基于大数据的Web入侵风险预测 被引量:2
7
作者 王永祥 王鹏 《现代电子技术》 北大核心 2017年第18期150-152,共3页
为了提高网络大数据的安全性能,进行Web入侵风险预测,提出基于非平稳性盲源分离的大数据的Web入侵检测模型进行风险预测估计。构建大数据的Web入侵信息测量模型,对Web大数据信息流进行二维信号拟合,采用非平稳性高斯独立平均统计量进行... 为了提高网络大数据的安全性能,进行Web入侵风险预测,提出基于非平稳性盲源分离的大数据的Web入侵检测模型进行风险预测估计。构建大数据的Web入侵信息测量模型,对Web大数据信息流进行二维信号拟合,采用非平稳性高斯独立平均统计量进行入侵信息判别,实现Web入侵风险预测模型改进设计。仿真结果表明,采用该方法进行大数据的Web入侵检测的准确检测概率较高,风险预测的精度高于传统模型。 展开更多
关键词 大数据 web入侵 风险预测 盲源分离
在线阅读 下载PDF
网络计量学与Web挖掘对比研究 被引量:1
8
作者 赵蓉英 魏明坤 《情报杂志》 CSSCI 北大核心 2016年第3期131-136,共6页
[目的/意义]以网络计量学和Web挖掘的概念为出发点,对网络计量学与Web挖掘进行对比研究,掌握两者之间的区别与联系,有利于学者对网络计量学的深入研究。[方法/过程]利用Cite Space软件绘制网络计量学与Web挖掘领域研究热点可视化知识图... [目的/意义]以网络计量学和Web挖掘的概念为出发点,对网络计量学与Web挖掘进行对比研究,掌握两者之间的区别与联系,有利于学者对网络计量学的深入研究。[方法/过程]利用Cite Space软件绘制网络计量学与Web挖掘领域研究热点可视化知识图谱;运用词频分析方法,统计各领域的高频关键词;最后,通过对比分析法,比较两者研究方向的差异。[结果/结论]研究发现两者都是基于对网络数据的分析,其中网络计量学注重现象与结构研究,而Web挖掘注重算法与试验性研究;在研究对象层面,网络计量学侧重于学术领域的研究,对科研领域的贡献较大,而Web挖掘侧重于电子商务领域的研究,以商业利益为导向。 展开更多
关键词 网络计量学 web挖掘 信息检索 链接分析 大数据
在线阅读 下载PDF
Web大数据系统数据源选择
9
作者 刘正涛 王建东 《计算机科学与探索》 CSCD 北大核心 2018年第3期360-369,共10页
如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式... 如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式的相似度选择与查询相关度高的数据源,通过计算依赖数据源的质量来选取质量较好的数据源;第二阶段基于最大熵理论计算数据源之间的重复率,设计实现了一个查询最小代价模型动态选择数据源算法。最后在实验平台上对算法进行了评估,实验表明该算法具有较高的效率与扩展性。 展开更多
关键词 web 大数据 数据源选择 数据源质量 数据源依赖
在线阅读 下载PDF
Web和大数据模型在农机虚拟设计中的研究 被引量:2
10
作者 靳继红 张莉 《农机化研究》 北大核心 2023年第8期201-205,共5页
介绍了农机虚拟设计的基本概念及其关键技术,基于Web和大数据模型建立了虚拟设计模型,并基于B/S模型结构实现了农机虚拟设计系统。仿真结果表明:仿真设计的拖拉机在传动比、速度、功耗和振动比多方面都满足理论计算值,符合设计预期。
关键词 拖拉机 虚拟设计 大数据模型 web B/S模型
在线阅读 下载PDF
SMT有界约束非集中自动机web服务模型检测
11
作者 韦容 申希兵 杨毅 《系统仿真学报》 CAS CSCD 北大核心 2016年第9期2283-2288,共6页
针对web服务模型检测应用中,传统的有限状态机的组合方式无法保证Web组合服务的正确性问题,提出一种基于可满足性模理论(satisfiability modulo theories,SMT)的非集中自动机的web服务模型检测算法。利用SMT对时间自动机进行有界模型检... 针对web服务模型检测应用中,传统的有限状态机的组合方式无法保证Web组合服务的正确性问题,提出一种基于可满足性模理论(satisfiability modulo theories,SMT)的非集中自动机的web服务模型检测算法。利用SMT对时间自动机进行有界模型检测,将时间自动机模型直接转换成SMT可识别的逻辑公式,并进行求解;利用所提SMT时间自动机理论,实现对雇员出差安排组合web服务进行建模和验证;通过实例分析,验证了算法在解除路径死锁及网络参数指标优化上的有效性。 展开更多
关键词 可满足性模理论 自动机 web服务 模型检测 大数据
在线阅读 下载PDF
DeepWeb可配置聚焦爬虫设计与实现 被引量:3
12
作者 罗成 程耀东 +1 位作者 胡庆宝 李海波 《核电子学与探测技术》 CAS CSCD 北大核心 2014年第3期353-358,共6页
大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单... 大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。 展开更多
关键词 聚焦爬虫 DEEP web 大数据
在线阅读 下载PDF
大数据环境下的Web网络风险估计 被引量:4
13
作者 陈晓燕 唐年庆 《现代电子技术》 北大核心 2017年第24期56-58,共3页
针对传统大数据评估过程中的Web网络风险评估结果不精准并且速度较慢的问题,提出一种大数据环境下的Web网络风险估计方法。采用特定的风险评估因子进行有效的评估,避免了传统方法中评定项目繁杂、计算量大等因素造成的评估不准的问题。... 针对传统大数据评估过程中的Web网络风险评估结果不精准并且速度较慢的问题,提出一种大数据环境下的Web网络风险估计方法。采用特定的风险评估因子进行有效的评估,避免了传统方法中评定项目繁杂、计算量大等因素造成的评估不准的问题。评估过程中使用了特定的评估模型,把传统的加权平均的风险估计方法转变成为非线性映射评估方法,这样能够更加准确的进行风险评估。为了验证设计的大数据环境下的Web网络风险估计的有效性,设计了对比仿真实验。实验结果表明,设计的大数据环境下的Web网络风险估计方法能够有效地解决风险评估过程中的评估结果不准确问题。 展开更多
关键词 web网络风险估计 大数据环境 风险评估因子 评估模型
在线阅读 下载PDF
稀疏混合图随机跳跃Web对象多标签半监督分类 被引量:1
14
作者 汪忠国 吴敏 谭芳芳 《计算机科学与探索》 CSCD 北大核心 2017年第7期1166-1174,共9页
针对Web对象的多标签分类的自动标注过程中,存在的标记数据耗时和不足导致分类性能不高的问题,提出了基于稀疏混合图随机跳跃变迁策略的Web对象多标签分类算法。首先,在构建Web对象亲和子图和标签相关子图基础上,通过权重自适应方式构建... 针对Web对象的多标签分类的自动标注过程中,存在的标记数据耗时和不足导致分类性能不高的问题,提出了基于稀疏混合图随机跳跃变迁策略的Web对象多标签分类算法。首先,在构建Web对象亲和子图和标签相关子图基础上,通过权重自适应方式构建Web对象标签分类的混合图,实现半监督形式的自动标注,解决人工标注存在的耗时问题;其次,针对混合图求解问题,利用随机跳跃变迁策略实现混合图对象与预测标签间的概率分配,实现未标记的Web对象所属类别标签的概率估计,并获得其top-k最高相关性分数;最后,在UCI Web测试集和真实大数据上进行测试,结果显示所提算法的Rand指标要优于对比算法,验证了算法的有效性。 展开更多
关键词 大数据 随机跳跃 web对象 标签分类 自动标注
在线阅读 下载PDF
基于Web应用系统脆弱性的攻击及其防御技术 被引量:3
15
作者 陈威 陈乐然 +2 位作者 徐小天 孙跃 韩哲 《电信科学》 北大核心 2017年第S1期108-116,共9页
首先回顾了基于Web技术的信息系统一般架构,继而分析了Web应用中各种脆弱性发生的位置以及几种常见的利用Web应用漏洞攻击的原理。最后分析了传统防御技术失效的原因以及新型防御的技术思路和具体方法。
关键词 web应用 漏洞利用 大数据分析 可视化
在线阅读 下载PDF
基于大数据的Web个性化推荐系统设计 被引量:8
16
作者 张婷婷 《现代电子技术》 北大核心 2018年第16期155-158,共4页
为了解决基于数据挖掘技术的Web个性化推荐系统对Web的推荐结果准确率低,反应时间长的问题,设计基于大数据的Web个性化推荐系统。塑造系统组成框架图,设计系统的总体功能包括源数据采集、数据预处理、用户兴趣分析与实现、个性化推荐以... 为了解决基于数据挖掘技术的Web个性化推荐系统对Web的推荐结果准确率低,反应时间长的问题,设计基于大数据的Web个性化推荐系统。塑造系统组成框架图,设计系统的总体功能包括源数据采集、数据预处理、用户兴趣分析与实现、个性化推荐以及推荐引擎。源数据采集利用Sqoop工具将数据库中的数据转移到HDFS中以便H-ICRS算法进行数据提取,并获得推荐的历史数据,实现作为系统上层数据支持的功能。针对分析用户长远和当前的Web兴趣度,分别采用语义分析模型和分片聚类的方法,分析用户Web使用兴趣。塑造单个推荐引擎的推荐引擎架构,得到最终的Web个性化推荐列表。实验结果表明,所设计系统的Web个性化推荐结果准确率高,系统的抗压能力强。 展开更多
关键词 大数据 HADOOP web个性化推荐 系统设计 Sqoop H-ICRS算法
在线阅读 下载PDF
海量大数据定向采样有差别挖掘算法仿真 被引量:1
17
作者 宁滔 《现代电子技术》 北大核心 2024年第9期164-168,共5页
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算... 在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算法。以网站统一资源定位器(URL)初始化为基础,在网络上抓取网页,采集网页的超文本标记语言(HTML)数据,提取定向数据的相关链接,并将其导入URL队列。根据网络搜索策略,实施相关的数据搜索和处理。完成数据搜索后,将自动进行下一网页的URL,继续进行海量大数据定向采样。结合模糊特征匹配与检测滤波方法实现大数据定向采样过程中的抗干扰处理。采用粗糙集算法实施挖掘,利用扩展差别矩阵对大数据决策表内的值实施约简,实现海量大数据的模式分类。实验结果显示,该算法数据采集过程中的丢包率基本控制在0.2%以下,具有较高的鲁棒性。 展开更多
关键词 海量大数据 网页抓取 定向采样 滤波处理 去冗余 粗糙集 扩展差别矩阵 决策规则
在线阅读 下载PDF
“科学知识图谱”与“Google知识图谱”比较分析——基于知识管理理论视角 被引量:46
18
作者 冯新翎 何胜 +2 位作者 熊太纯 武群辉 柳益君 《情报杂志》 CSSCI 北大核心 2017年第1期149-153,共5页
[目的/意义]随着大数据技术发展,"Google知识图谱"(knowledge graph)引起广泛关注,由于在中文译名上与图书情报领域中的"科学知识图谱"(Mapping knowledge domain)相似,容易引起误解。[方法/过程]基于知识管理理论... [目的/意义]随着大数据技术发展,"Google知识图谱"(knowledge graph)引起广泛关注,由于在中文译名上与图书情报领域中的"科学知识图谱"(Mapping knowledge domain)相似,容易引起误解。[方法/过程]基于知识管理理论,从知识获取、知识组织、知识存储、知识共享和知识创新的角度比较分析,并讨论大数据情景下两类知识图谱在相关领域的应用前景。[结果/结论]分析结果表明,两者之间既有本质的区别又有紧密的联系,在大数据时代,两者在知识创新方面的融合和发展将会带来知识管理领域科学范式的变革。 展开更多
关键词 科学知识图谱 谷歌知识图谱 语义网 大数据
在线阅读 下载PDF
大数据环境下的电子商务商品实体同一性识别 被引量:11
19
作者 胡亚慧 李石君 +4 位作者 余伟 杨莎 甘琳 王凯 方其庆 《计算机研究与发展》 EI CSCD 北大核心 2015年第8期1794-1805,共12页
怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性?值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、... 怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性?值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、质量高效的商品信息数据;而后基于层次概率模型对商品的同一性进行多层相似度量;最终完成商品实体识别,并归一化输出满足同一性的商品集和关联属性并进行排序.基于Hadoop平台对3个B2C电子商务数据源中的商品进行了实验,并与传统方法和产品进行了比较,实验结果证明了本框架的可行性、精确性和高效性. 展开更多
关键词 web大数据 电子商务 层次概率模型 商品 HADOOP
在线阅读 下载PDF
基于开放网络知识的信息检索与数据挖掘 被引量:98
20
作者 王元卓 贾岩涛 +2 位作者 刘大伟 靳小龙 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期456-474,共19页
网络大数据是指"人、机、物"三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强.... 网络大数据是指"人、机、物"三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强.网络大数据背后蕴含着丰富的、复杂关联的知识.建立面向开放网络的知识库是获取网络大数据中的丰富知识的有效手段.对当前国内外主要的开放网络库进行了比较,分析了相应的构建方法、多源知识的融合以及知识库的更新等关键技术.进一步从用户意图理解、查询扩展、语义问答、线索挖据、关系推理以及关系和属性预测等方面出发,总结了基于开放网络知识库的信息检索、数据挖掘与系统应用的研究现状和主要问题.最后,对开放网络知识库的发展趋势和面临的主要挑战进行了展望. 展开更多
关键词 网络大数据 开放网络知识 本体 信息检索 数据挖掘
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部