期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
60
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Web大数据环境下的不一致跨源数据发现
被引量:
24
1
作者
余伟
李石君
+4 位作者
杨莎
胡亚慧
刘晶
丁永刚
王骞
《计算机研究与发展》
EI
CSCD
北大核心
2015年第2期295-308,共14页
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源We...
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.
展开更多
关键词
web
大数据
web
数据挖掘
数据一致性
web
数据管理
数据质量评估
跨源数据分析
在线阅读
下载PDF
职称材料
基于Web大数据挖掘的证券价格波动实时影响研究
被引量:
8
2
作者
杨莎
余伟
+2 位作者
李石君
曹晶晶
刘晶
《计算机科学》
CSCD
北大核心
2015年第4期166-171,共6页
随着Web大数据的发展,互联网中海量、快捷的信息为证券市场变化预测提供了丰富的数据支撑,如何利用大数据分析技术进行实时可靠的证券市场价格变化预测成为重要的科学问题。从证券市场价格变化的核心价值问题研究出发,分析了股票价值所...
随着Web大数据的发展,互联网中海量、快捷的信息为证券市场变化预测提供了丰富的数据支撑,如何利用大数据分析技术进行实时可靠的证券市场价格变化预测成为重要的科学问题。从证券市场价格变化的核心价值问题研究出发,分析了股票价值所反映的基本面要求,建立了影响股票价值内涵和价格表现的10项准确可度量的特征因素:经济周期、财政政策、利率变动、汇率变动、物价变动、通货膨胀、政治政策、行业变化、经营状况、上下游影响等。在此基础上,构造互联网中信息内容与各个特征因素的提取方法、变化关系和影响模型,提出了针对大盘、行业、个股的互联网信息指标来反映Web数据对其的支撑程度,最终实现了基于Web大数据的综合特征因素度量来预测证券市场的方法。实验表明,该方法具有良好的可行性,将带来明显的学术和商业价值。
展开更多
关键词
数据挖掘
股票价格预测
web
大数据
在线阅读
下载PDF
职称材料
农业大数据浅析及与Web GIS结合应用
被引量:
17
3
作者
刘勍
毛克彪
+2 位作者
马莹
韩家琪
夏浪
《遥感信息》
CSCD
北大核心
2016年第1期124-128,共5页
针对农业领域当前缺少量化数据支撑、数据挖掘能力不足和难以与空间数据结合分析等问题,提出将大数据技术与Web GIS应用到农业中的体系框架。借鉴国内外学者在大数据和Web GIS领域的研究成果,基于农业的具体行业特征,从数据采集、挖掘...
针对农业领域当前缺少量化数据支撑、数据挖掘能力不足和难以与空间数据结合分析等问题,提出将大数据技术与Web GIS应用到农业中的体系框架。借鉴国内外学者在大数据和Web GIS领域的研究成果,基于农业的具体行业特征,从数据采集、挖掘、应用3个方面入手,分析了大数据和Web GIS与农业的结合应用方式,提出应用体系框架并对各个部分加以解释。农业的稳定发展影响着国民经济与粮食安全战略,迫切需要利用大数据技术提高我国农业信息化程度,目前农业大数据研究尚处于初级阶段,需农业相关部门及社会各界予以关注支持。
展开更多
关键词
农业数据
大数据
web
GIS
农业大数据
农业信息化
在线阅读
下载PDF
职称材料
Web大数据环境下的相似重复数据清理
被引量:
14
4
作者
王闪
谭良
《计算机工程与设计》
北大核心
2017年第3期646-651,共6页
为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中...
为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中一个及其副本,其余数据信息保存该数据信息的地址。使用该方法在Hadoop平台上对多个网站的Web数据进行实验,实验结果表明,该方法具有良好的精确性及数据缩减效果。
展开更多
关键词
web
大数据
重复数据删除
数据清理
相似哈希
数据质量评估
在线阅读
下载PDF
职称材料
大数据环境下Web数据源质量评估方法研究
被引量:
19
5
作者
赵星
李石君
+3 位作者
余伟
杨莎
丁永刚
胡亚慧
《计算机工程》
CAS
CSCD
北大核心
2017年第2期48-56,共9页
在大数据环境下Web数据资源的开放性和多源性使得不同互联网平台提供的数据质量参差不齐,严重影响人们从互联网中有效准确地获取信息。为此,提出一种Web数据源质量评估方法。建立面向多源互联网平台的统一数据模型和数据质量标准模型,...
在大数据环境下Web数据资源的开放性和多源性使得不同互联网平台提供的数据质量参差不齐,严重影响人们从互联网中有效准确地获取信息。为此,提出一种Web数据源质量评估方法。建立面向多源互联网平台的统一数据模型和数据质量标准模型,给出针对大数据全样本数据分析的质量标准度量和表示方法,并通过多维数据质量的综合评估实现Web数据源质量的统一度量。实验结果表明,该方法能全面度量互联网平台的数据质量,为用户提供准确高效的质量评价结果。
展开更多
关键词
大数据
web
数据源
数据质量评估
全样本分析
MAPREDUCE框架
在线阅读
下载PDF
职称材料
Web网络大数据的聚类中心调度技术研究
被引量:
8
6
作者
肖铮
董祥千
赵文革
《现代电子技术》
北大核心
2017年第24期25-27,共3页
针对传统调度方法一直存在调度精度不准确的问题,提出一种Web网络大数据的聚类中心调度技术的研究方案。针对Web网络大数据重新建立调度模型有效的对数据进行识别,优化聚类中心的K-means算法,解决对大数据调度能力差的问题,提高聚类中...
针对传统调度方法一直存在调度精度不准确的问题,提出一种Web网络大数据的聚类中心调度技术的研究方案。针对Web网络大数据重新建立调度模型有效的对数据进行识别,优化聚类中心的K-means算法,解决对大数据调度能力差的问题,提高聚类中心的大数据调度能力,最后使用建立调度模型完成在Web网络大数据环境下的聚类中心数据调度。设计对比仿真试验,通过实验数据可以有效地证明Web网络大数据的聚类中心调度技术的有效性。
展开更多
关键词
web
网络大数据
聚类中心
调度技术
数据识别
数据调度
在线阅读
下载PDF
职称材料
基于大数据的Web入侵风险预测
被引量:
2
7
作者
王永祥
王鹏
《现代电子技术》
北大核心
2017年第18期150-152,共3页
为了提高网络大数据的安全性能,进行Web入侵风险预测,提出基于非平稳性盲源分离的大数据的Web入侵检测模型进行风险预测估计。构建大数据的Web入侵信息测量模型,对Web大数据信息流进行二维信号拟合,采用非平稳性高斯独立平均统计量进行...
为了提高网络大数据的安全性能,进行Web入侵风险预测,提出基于非平稳性盲源分离的大数据的Web入侵检测模型进行风险预测估计。构建大数据的Web入侵信息测量模型,对Web大数据信息流进行二维信号拟合,采用非平稳性高斯独立平均统计量进行入侵信息判别,实现Web入侵风险预测模型改进设计。仿真结果表明,采用该方法进行大数据的Web入侵检测的准确检测概率较高,风险预测的精度高于传统模型。
展开更多
关键词
大数据
web
入侵
风险预测
盲源分离
在线阅读
下载PDF
职称材料
网络计量学与Web挖掘对比研究
被引量:
1
8
作者
赵蓉英
魏明坤
《情报杂志》
CSSCI
北大核心
2016年第3期131-136,共6页
[目的/意义]以网络计量学和Web挖掘的概念为出发点,对网络计量学与Web挖掘进行对比研究,掌握两者之间的区别与联系,有利于学者对网络计量学的深入研究。[方法/过程]利用Cite Space软件绘制网络计量学与Web挖掘领域研究热点可视化知识图...
[目的/意义]以网络计量学和Web挖掘的概念为出发点,对网络计量学与Web挖掘进行对比研究,掌握两者之间的区别与联系,有利于学者对网络计量学的深入研究。[方法/过程]利用Cite Space软件绘制网络计量学与Web挖掘领域研究热点可视化知识图谱;运用词频分析方法,统计各领域的高频关键词;最后,通过对比分析法,比较两者研究方向的差异。[结果/结论]研究发现两者都是基于对网络数据的分析,其中网络计量学注重现象与结构研究,而Web挖掘注重算法与试验性研究;在研究对象层面,网络计量学侧重于学术领域的研究,对科研领域的贡献较大,而Web挖掘侧重于电子商务领域的研究,以商业利益为导向。
展开更多
关键词
网络计量学
web
挖掘
信息检索
链接分析
大数据
在线阅读
下载PDF
职称材料
Web大数据系统数据源选择
9
作者
刘正涛
王建东
《计算机科学与探索》
CSCD
北大核心
2018年第3期360-369,共10页
如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式...
如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式的相似度选择与查询相关度高的数据源,通过计算依赖数据源的质量来选取质量较好的数据源;第二阶段基于最大熵理论计算数据源之间的重复率,设计实现了一个查询最小代价模型动态选择数据源算法。最后在实验平台上对算法进行了评估,实验表明该算法具有较高的效率与扩展性。
展开更多
关键词
web
大数据
数据源选择
数据源质量
数据源依赖
在线阅读
下载PDF
职称材料
Web和大数据模型在农机虚拟设计中的研究
被引量:
2
10
作者
靳继红
张莉
《农机化研究》
北大核心
2023年第8期201-205,共5页
介绍了农机虚拟设计的基本概念及其关键技术,基于Web和大数据模型建立了虚拟设计模型,并基于B/S模型结构实现了农机虚拟设计系统。仿真结果表明:仿真设计的拖拉机在传动比、速度、功耗和振动比多方面都满足理论计算值,符合设计预期。
关键词
拖拉机
虚拟设计
大数据模型
web
B/S模型
在线阅读
下载PDF
职称材料
SMT有界约束非集中自动机web服务模型检测
11
作者
韦容
申希兵
杨毅
《系统仿真学报》
CAS
CSCD
北大核心
2016年第9期2283-2288,共6页
针对web服务模型检测应用中,传统的有限状态机的组合方式无法保证Web组合服务的正确性问题,提出一种基于可满足性模理论(satisfiability modulo theories,SMT)的非集中自动机的web服务模型检测算法。利用SMT对时间自动机进行有界模型检...
针对web服务模型检测应用中,传统的有限状态机的组合方式无法保证Web组合服务的正确性问题,提出一种基于可满足性模理论(satisfiability modulo theories,SMT)的非集中自动机的web服务模型检测算法。利用SMT对时间自动机进行有界模型检测,将时间自动机模型直接转换成SMT可识别的逻辑公式,并进行求解;利用所提SMT时间自动机理论,实现对雇员出差安排组合web服务进行建模和验证;通过实例分析,验证了算法在解除路径死锁及网络参数指标优化上的有效性。
展开更多
关键词
可满足性模理论
自动机
web
服务
模型检测
大数据
在线阅读
下载PDF
职称材料
DeepWeb可配置聚焦爬虫设计与实现
被引量:
3
12
作者
罗成
程耀东
+1 位作者
胡庆宝
李海波
《核电子学与探测技术》
CAS
CSCD
北大核心
2014年第3期353-358,共6页
大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单...
大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。
展开更多
关键词
聚焦爬虫
DEEP
web
大数据
在线阅读
下载PDF
职称材料
大数据环境下的Web网络风险估计
被引量:
4
13
作者
陈晓燕
唐年庆
《现代电子技术》
北大核心
2017年第24期56-58,共3页
针对传统大数据评估过程中的Web网络风险评估结果不精准并且速度较慢的问题,提出一种大数据环境下的Web网络风险估计方法。采用特定的风险评估因子进行有效的评估,避免了传统方法中评定项目繁杂、计算量大等因素造成的评估不准的问题。...
针对传统大数据评估过程中的Web网络风险评估结果不精准并且速度较慢的问题,提出一种大数据环境下的Web网络风险估计方法。采用特定的风险评估因子进行有效的评估,避免了传统方法中评定项目繁杂、计算量大等因素造成的评估不准的问题。评估过程中使用了特定的评估模型,把传统的加权平均的风险估计方法转变成为非线性映射评估方法,这样能够更加准确的进行风险评估。为了验证设计的大数据环境下的Web网络风险估计的有效性,设计了对比仿真实验。实验结果表明,设计的大数据环境下的Web网络风险估计方法能够有效地解决风险评估过程中的评估结果不准确问题。
展开更多
关键词
web
网络风险估计
大数据环境
风险评估因子
评估模型
在线阅读
下载PDF
职称材料
稀疏混合图随机跳跃Web对象多标签半监督分类
被引量:
1
14
作者
汪忠国
吴敏
谭芳芳
《计算机科学与探索》
CSCD
北大核心
2017年第7期1166-1174,共9页
针对Web对象的多标签分类的自动标注过程中,存在的标记数据耗时和不足导致分类性能不高的问题,提出了基于稀疏混合图随机跳跃变迁策略的Web对象多标签分类算法。首先,在构建Web对象亲和子图和标签相关子图基础上,通过权重自适应方式构建...
针对Web对象的多标签分类的自动标注过程中,存在的标记数据耗时和不足导致分类性能不高的问题,提出了基于稀疏混合图随机跳跃变迁策略的Web对象多标签分类算法。首先,在构建Web对象亲和子图和标签相关子图基础上,通过权重自适应方式构建Web对象标签分类的混合图,实现半监督形式的自动标注,解决人工标注存在的耗时问题;其次,针对混合图求解问题,利用随机跳跃变迁策略实现混合图对象与预测标签间的概率分配,实现未标记的Web对象所属类别标签的概率估计,并获得其top-k最高相关性分数;最后,在UCI Web测试集和真实大数据上进行测试,结果显示所提算法的Rand指标要优于对比算法,验证了算法的有效性。
展开更多
关键词
大数据
随机跳跃
web
对象
标签分类
自动标注
在线阅读
下载PDF
职称材料
基于Web应用系统脆弱性的攻击及其防御技术
被引量:
3
15
作者
陈威
陈乐然
+2 位作者
徐小天
孙跃
韩哲
《电信科学》
北大核心
2017年第S1期108-116,共9页
首先回顾了基于Web技术的信息系统一般架构,继而分析了Web应用中各种脆弱性发生的位置以及几种常见的利用Web应用漏洞攻击的原理。最后分析了传统防御技术失效的原因以及新型防御的技术思路和具体方法。
关键词
web
应用
漏洞利用
大数据分析
可视化
在线阅读
下载PDF
职称材料
基于大数据的Web个性化推荐系统设计
被引量:
8
16
作者
张婷婷
《现代电子技术》
北大核心
2018年第16期155-158,共4页
为了解决基于数据挖掘技术的Web个性化推荐系统对Web的推荐结果准确率低,反应时间长的问题,设计基于大数据的Web个性化推荐系统。塑造系统组成框架图,设计系统的总体功能包括源数据采集、数据预处理、用户兴趣分析与实现、个性化推荐以...
为了解决基于数据挖掘技术的Web个性化推荐系统对Web的推荐结果准确率低,反应时间长的问题,设计基于大数据的Web个性化推荐系统。塑造系统组成框架图,设计系统的总体功能包括源数据采集、数据预处理、用户兴趣分析与实现、个性化推荐以及推荐引擎。源数据采集利用Sqoop工具将数据库中的数据转移到HDFS中以便H-ICRS算法进行数据提取,并获得推荐的历史数据,实现作为系统上层数据支持的功能。针对分析用户长远和当前的Web兴趣度,分别采用语义分析模型和分片聚类的方法,分析用户Web使用兴趣。塑造单个推荐引擎的推荐引擎架构,得到最终的Web个性化推荐列表。实验结果表明,所设计系统的Web个性化推荐结果准确率高,系统的抗压能力强。
展开更多
关键词
大数据
HADOOP
web
个性化推荐
系统设计
Sqoop
H-ICRS算法
在线阅读
下载PDF
职称材料
海量大数据定向采样有差别挖掘算法仿真
被引量:
1
17
作者
宁滔
《现代电子技术》
北大核心
2024年第9期164-168,共5页
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算...
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算法。以网站统一资源定位器(URL)初始化为基础,在网络上抓取网页,采集网页的超文本标记语言(HTML)数据,提取定向数据的相关链接,并将其导入URL队列。根据网络搜索策略,实施相关的数据搜索和处理。完成数据搜索后,将自动进行下一网页的URL,继续进行海量大数据定向采样。结合模糊特征匹配与检测滤波方法实现大数据定向采样过程中的抗干扰处理。采用粗糙集算法实施挖掘,利用扩展差别矩阵对大数据决策表内的值实施约简,实现海量大数据的模式分类。实验结果显示,该算法数据采集过程中的丢包率基本控制在0.2%以下,具有较高的鲁棒性。
展开更多
关键词
海量大数据
网页抓取
定向采样
滤波处理
去冗余
粗糙集
扩展差别矩阵
决策规则
在线阅读
下载PDF
职称材料
“科学知识图谱”与“Google知识图谱”比较分析——基于知识管理理论视角
被引量:
46
18
作者
冯新翎
何胜
+2 位作者
熊太纯
武群辉
柳益君
《情报杂志》
CSSCI
北大核心
2017年第1期149-153,共5页
[目的/意义]随着大数据技术发展,"Google知识图谱"(knowledge graph)引起广泛关注,由于在中文译名上与图书情报领域中的"科学知识图谱"(Mapping knowledge domain)相似,容易引起误解。[方法/过程]基于知识管理理论...
[目的/意义]随着大数据技术发展,"Google知识图谱"(knowledge graph)引起广泛关注,由于在中文译名上与图书情报领域中的"科学知识图谱"(Mapping knowledge domain)相似,容易引起误解。[方法/过程]基于知识管理理论,从知识获取、知识组织、知识存储、知识共享和知识创新的角度比较分析,并讨论大数据情景下两类知识图谱在相关领域的应用前景。[结果/结论]分析结果表明,两者之间既有本质的区别又有紧密的联系,在大数据时代,两者在知识创新方面的融合和发展将会带来知识管理领域科学范式的变革。
展开更多
关键词
科学知识图谱
谷歌知识图谱
语义网
大数据
在线阅读
下载PDF
职称材料
大数据环境下的电子商务商品实体同一性识别
被引量:
11
19
作者
胡亚慧
李石君
+4 位作者
余伟
杨莎
甘琳
王凯
方其庆
《计算机研究与发展》
EI
CSCD
北大核心
2015年第8期1794-1805,共12页
怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性?值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、...
怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性?值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、质量高效的商品信息数据;而后基于层次概率模型对商品的同一性进行多层相似度量;最终完成商品实体识别,并归一化输出满足同一性的商品集和关联属性并进行排序.基于Hadoop平台对3个B2C电子商务数据源中的商品进行了实验,并与传统方法和产品进行了比较,实验结果证明了本框架的可行性、精确性和高效性.
展开更多
关键词
web
大数据
电子商务
层次概率模型
商品
HADOOP
在线阅读
下载PDF
职称材料
基于开放网络知识的信息检索与数据挖掘
被引量:
98
20
作者
王元卓
贾岩涛
+2 位作者
刘大伟
靳小龙
程学旗
《计算机研究与发展》
EI
CSCD
北大核心
2015年第2期456-474,共19页
网络大数据是指"人、机、物"三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强....
网络大数据是指"人、机、物"三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强.网络大数据背后蕴含着丰富的、复杂关联的知识.建立面向开放网络的知识库是获取网络大数据中的丰富知识的有效手段.对当前国内外主要的开放网络库进行了比较,分析了相应的构建方法、多源知识的融合以及知识库的更新等关键技术.进一步从用户意图理解、查询扩展、语义问答、线索挖据、关系推理以及关系和属性预测等方面出发,总结了基于开放网络知识库的信息检索、数据挖掘与系统应用的研究现状和主要问题.最后,对开放网络知识库的发展趋势和面临的主要挑战进行了展望.
展开更多
关键词
网络大数据
开放网络知识
本体
信息检索
数据挖掘
在线阅读
下载PDF
职称材料
题名
Web大数据环境下的不一致跨源数据发现
被引量:
24
1
作者
余伟
李石君
杨莎
胡亚慧
刘晶
丁永刚
王骞
机构
武汉大学计算机学院
汉口学院计算机科学与技术学院
空军预警学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第2期295-308,共14页
基金
国家自然科学基金项目(61272109)
中央高校基本科研业务费专项资金项目(2042014kf0057)
湖北省自然科学基金项目(2014CFB289)
文摘
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.
关键词
web
大数据
web
数据挖掘
数据一致性
web
数据管理
数据质量评估
跨源数据分析
Keywords
web big data
web
data
mining
data
consistency
web
data
management
data
quality assessment
cross-source analysis
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于Web大数据挖掘的证券价格波动实时影响研究
被引量:
8
2
作者
杨莎
余伟
李石君
曹晶晶
刘晶
机构
武汉大学计算机学院
汉口学院计算机科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2015年第4期166-171,共6页
基金
国家自然科学基金项目:面向过时信息自动发现的Web时态一致性研究(61272109)
中央高校基本科研业务费专项资金项目:Web大数据环境下的数据时态一致性研究(2042014kf0057)
湖北省人文社会科学基金项目:基于Web时间冲突性推理的智能信息过滤研究(14G461)资助
文摘
随着Web大数据的发展,互联网中海量、快捷的信息为证券市场变化预测提供了丰富的数据支撑,如何利用大数据分析技术进行实时可靠的证券市场价格变化预测成为重要的科学问题。从证券市场价格变化的核心价值问题研究出发,分析了股票价值所反映的基本面要求,建立了影响股票价值内涵和价格表现的10项准确可度量的特征因素:经济周期、财政政策、利率变动、汇率变动、物价变动、通货膨胀、政治政策、行业变化、经营状况、上下游影响等。在此基础上,构造互联网中信息内容与各个特征因素的提取方法、变化关系和影响模型,提出了针对大盘、行业、个股的互联网信息指标来反映Web数据对其的支撑程度,最终实现了基于Web大数据的综合特征因素度量来预测证券市场的方法。实验表明,该方法具有良好的可行性,将带来明显的学术和商业价值。
关键词
数据挖掘
股票价格预测
web
大数据
Keywords
data
mining
Stock price forecast
web big data
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
农业大数据浅析及与Web GIS结合应用
被引量:
17
3
作者
刘勍
毛克彪
马莹
韩家琪
夏浪
机构
中国农业科学院农业资源与农业区划研究所呼伦贝尔草原生态系统国家野外科学观测研究站
中国国际农业大数据与营养研究院
遥感科学国家重点实验室
出处
《遥感信息》
CSCD
北大核心
2016年第1期124-128,共5页
基金
国家自然科学基金(41571427
41440047)
+1 种基金
中央级公益性科研院所专项资金(IARRP-2015-26)
国家遥感科学重点实验室开放课题(OFSLRSS201515)
文摘
针对农业领域当前缺少量化数据支撑、数据挖掘能力不足和难以与空间数据结合分析等问题,提出将大数据技术与Web GIS应用到农业中的体系框架。借鉴国内外学者在大数据和Web GIS领域的研究成果,基于农业的具体行业特征,从数据采集、挖掘、应用3个方面入手,分析了大数据和Web GIS与农业的结合应用方式,提出应用体系框架并对各个部分加以解释。农业的稳定发展影响着国民经济与粮食安全战略,迫切需要利用大数据技术提高我国农业信息化程度,目前农业大数据研究尚处于初级阶段,需农业相关部门及社会各界予以关注支持。
关键词
农业数据
大数据
web
GIS
农业大数据
农业信息化
Keywords
agricultural
data
big
data
web
GIS
agricultural
big
data
agricultural informatization
分类号
TP701 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
Web大数据环境下的相似重复数据清理
被引量:
14
4
作者
王闪
谭良
机构
四川师范大学计算机学院
中国科学院计算技术研究所
出处
《计算机工程与设计》
北大核心
2017年第3期646-651,共6页
基金
国家自然科学基金项目(61373162)
四川省科技支撑基金项目(2014GZ007)
可视化计算与虚拟现实四川省重点实验室基金项目(KJ201402)
文摘
为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中一个及其副本,其余数据信息保存该数据信息的地址。使用该方法在Hadoop平台上对多个网站的Web数据进行实验,实验结果表明,该方法具有良好的精确性及数据缩减效果。
关键词
web
大数据
重复数据删除
数据清理
相似哈希
数据质量评估
Keywords
web big data
duplicate detection
data
cleaning
SimHash
data
quality assessment
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
大数据环境下Web数据源质量评估方法研究
被引量:
19
5
作者
赵星
李石君
余伟
杨莎
丁永刚
胡亚慧
机构
武汉大学计算机学院
纽约州立大学宾汉姆顿分校计算机科学系
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第2期48-56,共9页
基金
国家自然科学基金(61502350
61672393
+2 种基金
U1536114)
中央高校基本科研业务费专项资金项目(2042014kf0057)
湖北省自然科学基金(2014CFB289)
文摘
在大数据环境下Web数据资源的开放性和多源性使得不同互联网平台提供的数据质量参差不齐,严重影响人们从互联网中有效准确地获取信息。为此,提出一种Web数据源质量评估方法。建立面向多源互联网平台的统一数据模型和数据质量标准模型,给出针对大数据全样本数据分析的质量标准度量和表示方法,并通过多维数据质量的综合评估实现Web数据源质量的统一度量。实验结果表明,该方法能全面度量互联网平台的数据质量,为用户提供准确高效的质量评价结果。
关键词
大数据
web
数据源
数据质量评估
全样本分析
MAPREDUCE框架
Keywords
big
data
web
data
source
data
quality assessment
full sample analysis
MapReduce framework
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
Web网络大数据的聚类中心调度技术研究
被引量:
8
6
作者
肖铮
董祥千
赵文革
机构
成都东软学院
出处
《现代电子技术》
北大核心
2017年第24期25-27,共3页
基金
四川省自然科学基金(17ZB0005)
文摘
针对传统调度方法一直存在调度精度不准确的问题,提出一种Web网络大数据的聚类中心调度技术的研究方案。针对Web网络大数据重新建立调度模型有效的对数据进行识别,优化聚类中心的K-means算法,解决对大数据调度能力差的问题,提高聚类中心的大数据调度能力,最后使用建立调度模型完成在Web网络大数据环境下的聚类中心数据调度。设计对比仿真试验,通过实验数据可以有效地证明Web网络大数据的聚类中心调度技术的有效性。
关键词
web
网络大数据
聚类中心
调度技术
数据识别
数据调度
Keywords
web
network
big
data
clustering center
scheduling technology
data
identification
data
scheduling
分类号
TN711-34 [电子电信—电路与系统]
TP391.3 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于大数据的Web入侵风险预测
被引量:
2
7
作者
王永祥
王鹏
机构
广州科技贸易职业学院
西南民族大学计算机科学与技术学院
出处
《现代电子技术》
北大核心
2017年第18期150-152,共3页
基金
国家自然科学基金(60702075)
广东省高职高专云计算与大数据专业委员会教育科研课题(GDYJSKT14-04)
文摘
为了提高网络大数据的安全性能,进行Web入侵风险预测,提出基于非平稳性盲源分离的大数据的Web入侵检测模型进行风险预测估计。构建大数据的Web入侵信息测量模型,对Web大数据信息流进行二维信号拟合,采用非平稳性高斯独立平均统计量进行入侵信息判别,实现Web入侵风险预测模型改进设计。仿真结果表明,采用该方法进行大数据的Web入侵检测的准确检测概率较高,风险预测的精度高于传统模型。
关键词
大数据
web
入侵
风险预测
盲源分离
Keywords
big
data
web
intrusion
risk prediction
blind source separation
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
网络计量学与Web挖掘对比研究
被引量:
1
8
作者
赵蓉英
魏明坤
机构
武汉大学中国科学评价研究中心
武汉大学信息管理学院
出处
《情报杂志》
CSSCI
北大核心
2016年第3期131-136,共6页
基金
教育部重点研究基地自主研究项目"企业竞争情报战略行为研究"(编号:WHXZ2013-01)研究成果之一
文摘
[目的/意义]以网络计量学和Web挖掘的概念为出发点,对网络计量学与Web挖掘进行对比研究,掌握两者之间的区别与联系,有利于学者对网络计量学的深入研究。[方法/过程]利用Cite Space软件绘制网络计量学与Web挖掘领域研究热点可视化知识图谱;运用词频分析方法,统计各领域的高频关键词;最后,通过对比分析法,比较两者研究方向的差异。[结果/结论]研究发现两者都是基于对网络数据的分析,其中网络计量学注重现象与结构研究,而Web挖掘注重算法与试验性研究;在研究对象层面,网络计量学侧重于学术领域的研究,对科研领域的贡献较大,而Web挖掘侧重于电子商务领域的研究,以商业利益为导向。
关键词
网络计量学
web
挖掘
信息检索
链接分析
大数据
Keywords
web
ometrics
web
mining
information retrieval
link analysis
big
data
分类号
G250 [文化科学—图书馆学]
在线阅读
下载PDF
职称材料
题名
Web大数据系统数据源选择
9
作者
刘正涛
王建东
机构
三江学院计算机科学与工程学院
南京航空航天大学计算机科学与技术学院
出处
《计算机科学与探索》
CSCD
北大核心
2018年第3期360-369,共10页
基金
国家自然科学基金
No.61139002~~
文摘
如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式的相似度选择与查询相关度高的数据源,通过计算依赖数据源的质量来选取质量较好的数据源;第二阶段基于最大熵理论计算数据源之间的重复率,设计实现了一个查询最小代价模型动态选择数据源算法。最后在实验平台上对算法进行了评估,实验表明该算法具有较高的效率与扩展性。
关键词
web
大数据
数据源选择
数据源质量
数据源依赖
Keywords
web big data
data
source selection
quality of
data
source
dependence of
data
source
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
Web和大数据模型在农机虚拟设计中的研究
被引量:
2
10
作者
靳继红
张莉
机构
焦作师范高等专科学校
武汉晴川学院
出处
《农机化研究》
北大核心
2023年第8期201-205,共5页
基金
河南省软科学研究计划项目(212400410235)。
文摘
介绍了农机虚拟设计的基本概念及其关键技术,基于Web和大数据模型建立了虚拟设计模型,并基于B/S模型结构实现了农机虚拟设计系统。仿真结果表明:仿真设计的拖拉机在传动比、速度、功耗和振动比多方面都满足理论计算值,符合设计预期。
关键词
拖拉机
虚拟设计
大数据模型
web
B/S模型
Keywords
tractor
virtual design
big
data
model
web
B/S model
分类号
S126 [农业科学—农业基础科学]
S220.3 [农业科学—农业机械化工程]
在线阅读
下载PDF
职称材料
题名
SMT有界约束非集中自动机web服务模型检测
11
作者
韦容
申希兵
杨毅
机构
钦州学院人文学院
广西科技大学软件学院
出处
《系统仿真学报》
CAS
CSCD
北大核心
2016年第9期2283-2288,共6页
文摘
针对web服务模型检测应用中,传统的有限状态机的组合方式无法保证Web组合服务的正确性问题,提出一种基于可满足性模理论(satisfiability modulo theories,SMT)的非集中自动机的web服务模型检测算法。利用SMT对时间自动机进行有界模型检测,将时间自动机模型直接转换成SMT可识别的逻辑公式,并进行求解;利用所提SMT时间自动机理论,实现对雇员出差安排组合web服务进行建模和验证;通过实例分析,验证了算法在解除路径死锁及网络参数指标优化上的有效性。
关键词
可满足性模理论
自动机
web
服务
模型检测
大数据
Keywords
satisfiability modulo theories
automata
web
service
model checking
big
data
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
DeepWeb可配置聚焦爬虫设计与实现
被引量:
3
12
作者
罗成
程耀东
胡庆宝
李海波
机构
中国科学院高能物理研究所
中国科学院大学
出处
《核电子学与探测技术》
CAS
CSCD
北大核心
2014年第3期353-358,共6页
文摘
大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。
关键词
聚焦爬虫
DEEP
web
大数据
Keywords
focused
web
crawler
Deep
web
big
data
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
大数据环境下的Web网络风险估计
被引量:
4
13
作者
陈晓燕
唐年庆
机构
内江师范学院
出处
《现代电子技术》
北大核心
2017年第24期56-58,共3页
基金
四川省教育厅自筹科研项目(15ZB0276)
文摘
针对传统大数据评估过程中的Web网络风险评估结果不精准并且速度较慢的问题,提出一种大数据环境下的Web网络风险估计方法。采用特定的风险评估因子进行有效的评估,避免了传统方法中评定项目繁杂、计算量大等因素造成的评估不准的问题。评估过程中使用了特定的评估模型,把传统的加权平均的风险估计方法转变成为非线性映射评估方法,这样能够更加准确的进行风险评估。为了验证设计的大数据环境下的Web网络风险估计的有效性,设计了对比仿真实验。实验结果表明,设计的大数据环境下的Web网络风险估计方法能够有效地解决风险评估过程中的评估结果不准确问题。
关键词
web
网络风险估计
大数据环境
风险评估因子
评估模型
Keywords
web
network risk estimation
big
data
environment
risk estimation factor
estimation model
分类号
TN711-34 [电子电信—电路与系统]
TP469 [自动化与计算机技术]
在线阅读
下载PDF
职称材料
题名
稀疏混合图随机跳跃Web对象多标签半监督分类
被引量:
1
14
作者
汪忠国
吴敏
谭芳芳
机构
安徽信息工程学院
中国科学技术大学软件学院
安徽信息工程学院基础教学部
出处
《计算机科学与探索》
CSCD
北大核心
2017年第7期1166-1174,共9页
基金
安徽省教育厅自然科学研究项目No.KJ2016A075~~
文摘
针对Web对象的多标签分类的自动标注过程中,存在的标记数据耗时和不足导致分类性能不高的问题,提出了基于稀疏混合图随机跳跃变迁策略的Web对象多标签分类算法。首先,在构建Web对象亲和子图和标签相关子图基础上,通过权重自适应方式构建Web对象标签分类的混合图,实现半监督形式的自动标注,解决人工标注存在的耗时问题;其次,针对混合图求解问题,利用随机跳跃变迁策略实现混合图对象与预测标签间的概率分配,实现未标记的Web对象所属类别标签的概率估计,并获得其top-k最高相关性分数;最后,在UCI Web测试集和真实大数据上进行测试,结果显示所提算法的Rand指标要优于对比算法,验证了算法的有效性。
关键词
大数据
随机跳跃
web
对象
标签分类
自动标注
Keywords
big
data
random jump
web
object
label classification
automatic marking
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于Web应用系统脆弱性的攻击及其防御技术
被引量:
3
15
作者
陈威
陈乐然
徐小天
孙跃
韩哲
机构
国网冀北电力有限公司电力科学研究院(华北电力科学研究院有限责任公司)
出处
《电信科学》
北大核心
2017年第S1期108-116,共9页
文摘
首先回顾了基于Web技术的信息系统一般架构,继而分析了Web应用中各种脆弱性发生的位置以及几种常见的利用Web应用漏洞攻击的原理。最后分析了传统防御技术失效的原因以及新型防御的技术思路和具体方法。
关键词
web
应用
漏洞利用
大数据分析
可视化
Keywords
web
application
vulnerability utilization
big
data
analysis
visualization
分类号
TP393.08 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于大数据的Web个性化推荐系统设计
被引量:
8
16
作者
张婷婷
机构
山东管理学院信息工程学院
出处
《现代电子技术》
北大核心
2018年第16期155-158,共4页
基金
国家自然科学基金青年项目(71301086)
山东省社科规划专项基金(17CQXJ11)
山东省高等学校科技计划资助项目(J16LN70)~~
文摘
为了解决基于数据挖掘技术的Web个性化推荐系统对Web的推荐结果准确率低,反应时间长的问题,设计基于大数据的Web个性化推荐系统。塑造系统组成框架图,设计系统的总体功能包括源数据采集、数据预处理、用户兴趣分析与实现、个性化推荐以及推荐引擎。源数据采集利用Sqoop工具将数据库中的数据转移到HDFS中以便H-ICRS算法进行数据提取,并获得推荐的历史数据,实现作为系统上层数据支持的功能。针对分析用户长远和当前的Web兴趣度,分别采用语义分析模型和分片聚类的方法,分析用户Web使用兴趣。塑造单个推荐引擎的推荐引擎架构,得到最终的Web个性化推荐列表。实验结果表明,所设计系统的Web个性化推荐结果准确率高,系统的抗压能力强。
关键词
大数据
HADOOP
web
个性化推荐
系统设计
Sqoop
H-ICRS算法
Keywords
big
data
Hadoop
web
personalized recommendation
system design
Sqoop
H-ICRS algorithm
分类号
TN919-34 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
海量大数据定向采样有差别挖掘算法仿真
被引量:
1
17
作者
宁滔
机构
桂林电子科技大学计算机工程学院
出处
《现代电子技术》
北大核心
2024年第9期164-168,共5页
基金
(2021—2024)广西职业教育教学改革重点项目(GXGZJG2021A035)。
文摘
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算法。以网站统一资源定位器(URL)初始化为基础,在网络上抓取网页,采集网页的超文本标记语言(HTML)数据,提取定向数据的相关链接,并将其导入URL队列。根据网络搜索策略,实施相关的数据搜索和处理。完成数据搜索后,将自动进行下一网页的URL,继续进行海量大数据定向采样。结合模糊特征匹配与检测滤波方法实现大数据定向采样过程中的抗干扰处理。采用粗糙集算法实施挖掘,利用扩展差别矩阵对大数据决策表内的值实施约简,实现海量大数据的模式分类。实验结果显示,该算法数据采集过程中的丢包率基本控制在0.2%以下,具有较高的鲁棒性。
关键词
海量大数据
网页抓取
定向采样
滤波处理
去冗余
粗糙集
扩展差别矩阵
决策规则
Keywords
massive
big
data
web
page crawling
directional sampling
filtering processing
redundancy removal
rough set
extended difference matrix
decision rule
分类号
TN919-34 [电子电信—通信与信息系统]
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
“科学知识图谱”与“Google知识图谱”比较分析——基于知识管理理论视角
被引量:
46
18
作者
冯新翎
何胜
熊太纯
武群辉
柳益君
机构
江苏理工学院计算机工程学院
常州市云计算与智能信息处理重点实验室
江苏理工学院图书馆
出处
《情报杂志》
CSSCI
北大核心
2017年第1期149-153,共5页
基金
国家社会科学基金一般项目"基于大规模网络分析方法和内存计算技术的高校图书馆大数据应用模式与实证研究"(编号:15BTQ016)研究成果之一
文摘
[目的/意义]随着大数据技术发展,"Google知识图谱"(knowledge graph)引起广泛关注,由于在中文译名上与图书情报领域中的"科学知识图谱"(Mapping knowledge domain)相似,容易引起误解。[方法/过程]基于知识管理理论,从知识获取、知识组织、知识存储、知识共享和知识创新的角度比较分析,并讨论大数据情景下两类知识图谱在相关领域的应用前景。[结果/结论]分析结果表明,两者之间既有本质的区别又有紧密的联系,在大数据时代,两者在知识创新方面的融合和发展将会带来知识管理领域科学范式的变革。
关键词
科学知识图谱
谷歌知识图谱
语义网
大数据
Keywords
mapping knowledge domain
Google knowledge graph
semantic
web
big
data
分类号
G350 [文化科学—情报学]
在线阅读
下载PDF
职称材料
题名
大数据环境下的电子商务商品实体同一性识别
被引量:
11
19
作者
胡亚慧
李石君
余伟
杨莎
甘琳
王凯
方其庆
机构
武汉大学计算机学院
空军预警学院
汉口学院计算机科学与技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第8期1794-1805,共12页
基金
国家自然科学基金项目(61272109)
中央高校基本科研业务费专项资金项目(2042014KF0057)
+1 种基金
湖北省自然科学基金项目(2014CFB289)
空军预警学院青年创新基金项目(2013ZDJC0101)
文摘
怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性?值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、质量高效的商品信息数据;而后基于层次概率模型对商品的同一性进行多层相似度量;最终完成商品实体识别,并归一化输出满足同一性的商品集和关联属性并进行排序.基于Hadoop平台对3个B2C电子商务数据源中的商品进行了实验,并与传统方法和产品进行了比较,实验结果证明了本框架的可行性、精确性和高效性.
关键词
web
大数据
电子商务
层次概率模型
商品
HADOOP
Keywords
web big data
e-commerce
hierarchical probabilistic model
commodity
Hadoop
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于开放网络知识的信息检索与数据挖掘
被引量:
98
20
作者
王元卓
贾岩涛
刘大伟
靳小龙
程学旗
机构
中国科学院网络数据科学与技术重点实验室(中国科学院计算技术研究所)
烟台中科网络技术研究所
中国科学院计算技术研究所烟台分所
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第2期456-474,共19页
基金
国家“九七三”重点基础研究发展计划基金项目(2014CB340401,2013CB329601)
国家自然科学基金项目(61173008,61100175,61232010,60933005,61402442)
+1 种基金
北京市科技新星计划项目(Z121101002512063)
北京市自然科学基金青年基金项目(4154086)
文摘
网络大数据是指"人、机、物"三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强.网络大数据背后蕴含着丰富的、复杂关联的知识.建立面向开放网络的知识库是获取网络大数据中的丰富知识的有效手段.对当前国内外主要的开放网络库进行了比较,分析了相应的构建方法、多源知识的融合以及知识库的更新等关键技术.进一步从用户意图理解、查询扩展、语义问答、线索挖据、关系推理以及关系和属性预测等方面出发,总结了基于开放网络知识库的信息检索、数据挖掘与系统应用的研究现状和主要问题.最后,对开放网络知识库的发展趋势和面临的主要挑战进行了展望.
关键词
网络大数据
开放网络知识
本体
信息检索
数据挖掘
Keywords
network
big
data
open
web
knowledge
ontology
information search
data
mining
分类号
TP182 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Web大数据环境下的不一致跨源数据发现
余伟
李石君
杨莎
胡亚慧
刘晶
丁永刚
王骞
《计算机研究与发展》
EI
CSCD
北大核心
2015
24
在线阅读
下载PDF
职称材料
2
基于Web大数据挖掘的证券价格波动实时影响研究
杨莎
余伟
李石君
曹晶晶
刘晶
《计算机科学》
CSCD
北大核心
2015
8
在线阅读
下载PDF
职称材料
3
农业大数据浅析及与Web GIS结合应用
刘勍
毛克彪
马莹
韩家琪
夏浪
《遥感信息》
CSCD
北大核心
2016
17
在线阅读
下载PDF
职称材料
4
Web大数据环境下的相似重复数据清理
王闪
谭良
《计算机工程与设计》
北大核心
2017
14
在线阅读
下载PDF
职称材料
5
大数据环境下Web数据源质量评估方法研究
赵星
李石君
余伟
杨莎
丁永刚
胡亚慧
《计算机工程》
CAS
CSCD
北大核心
2017
19
在线阅读
下载PDF
职称材料
6
Web网络大数据的聚类中心调度技术研究
肖铮
董祥千
赵文革
《现代电子技术》
北大核心
2017
8
在线阅读
下载PDF
职称材料
7
基于大数据的Web入侵风险预测
王永祥
王鹏
《现代电子技术》
北大核心
2017
2
在线阅读
下载PDF
职称材料
8
网络计量学与Web挖掘对比研究
赵蓉英
魏明坤
《情报杂志》
CSSCI
北大核心
2016
1
在线阅读
下载PDF
职称材料
9
Web大数据系统数据源选择
刘正涛
王建东
《计算机科学与探索》
CSCD
北大核心
2018
0
在线阅读
下载PDF
职称材料
10
Web和大数据模型在农机虚拟设计中的研究
靳继红
张莉
《农机化研究》
北大核心
2023
2
在线阅读
下载PDF
职称材料
11
SMT有界约束非集中自动机web服务模型检测
韦容
申希兵
杨毅
《系统仿真学报》
CAS
CSCD
北大核心
2016
0
在线阅读
下载PDF
职称材料
12
DeepWeb可配置聚焦爬虫设计与实现
罗成
程耀东
胡庆宝
李海波
《核电子学与探测技术》
CAS
CSCD
北大核心
2014
3
在线阅读
下载PDF
职称材料
13
大数据环境下的Web网络风险估计
陈晓燕
唐年庆
《现代电子技术》
北大核心
2017
4
在线阅读
下载PDF
职称材料
14
稀疏混合图随机跳跃Web对象多标签半监督分类
汪忠国
吴敏
谭芳芳
《计算机科学与探索》
CSCD
北大核心
2017
1
在线阅读
下载PDF
职称材料
15
基于Web应用系统脆弱性的攻击及其防御技术
陈威
陈乐然
徐小天
孙跃
韩哲
《电信科学》
北大核心
2017
3
在线阅读
下载PDF
职称材料
16
基于大数据的Web个性化推荐系统设计
张婷婷
《现代电子技术》
北大核心
2018
8
在线阅读
下载PDF
职称材料
17
海量大数据定向采样有差别挖掘算法仿真
宁滔
《现代电子技术》
北大核心
2024
1
在线阅读
下载PDF
职称材料
18
“科学知识图谱”与“Google知识图谱”比较分析——基于知识管理理论视角
冯新翎
何胜
熊太纯
武群辉
柳益君
《情报杂志》
CSSCI
北大核心
2017
46
在线阅读
下载PDF
职称材料
19
大数据环境下的电子商务商品实体同一性识别
胡亚慧
李石君
余伟
杨莎
甘琳
王凯
方其庆
《计算机研究与发展》
EI
CSCD
北大核心
2015
11
在线阅读
下载PDF
职称材料
20
基于开放网络知识的信息检索与数据挖掘
王元卓
贾岩涛
刘大伟
靳小龙
程学旗
《计算机研究与发展》
EI
CSCD
北大核心
2015
98
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部