期刊文献+
共找到219篇文章
< 1 2 11 >
每页显示 20 50 100
基于确定性并发控制的云原生数据库多写事务处理
1
作者 洪殷昊 赵泓尧 +4 位作者 王乙霖 史心悦 卢卫 杨尚 杜胜 《软件学报》 北大核心 2025年第3期995-1021,共27页
云原生数据库具有开箱即用、弹性伸缩、按需付费等优势,是目前学术界和工业界的研究热点.当前,云原生数据库仅支持“一写多读”,即读写事务集中在单一的读写节点,只读事务分散到多个只读节点.将读写事务集中在单一的读写节点,制约了系... 云原生数据库具有开箱即用、弹性伸缩、按需付费等优势,是目前学术界和工业界的研究热点.当前,云原生数据库仅支持“一写多读”,即读写事务集中在单一的读写节点,只读事务分散到多个只读节点.将读写事务集中在单一的读写节点,制约了系统的读写事务处理能力,难以满足读写密集型业务需求.为此,提出D3C(deterministic concurrency control cloud-native database)架构,通过设计基于确定性并发控制的云原生数据库事务处理机制来突破一写多读的限制,支持多个读写节点并发执行读写事务.D3C将事务分拆为子事务,并根据预先确定的全局顺序在各节点独立执行这些子事务,以满足多个读写节点上事务执行的可串行化.此外,提出基于多版本机制的异步批量数据持久化等机制以保证事务处理的性能,并提出基于一致性点的故障恢复机制以实现高可用.实验结果表明,D3C在满足云原生数据库关键需求的同时,在写密集场景下能够达到一写多读性能的5.1倍. 展开更多
关键词 云原生数据库 确定性并发控制 事务处理
在线阅读 下载PDF
跨域数据管理 被引量:10
2
作者 杜小勇 李彤 +3 位作者 卢卫 范举 张峰 柴云鹏 《计算机科学》 CSCD 北大核心 2024年第1期4-12,共9页
随着数据成为新的生产要素和数字中国顶层战略的推进,跨域数据共享和流通对于实现数据要素价值最大化变得至关重要。国家通过布局全国一体化大数据中心体系、启动“东数西算”工程等一系列举措,为数据要素的跨域应用提供了基础设施。然... 随着数据成为新的生产要素和数字中国顶层战略的推进,跨域数据共享和流通对于实现数据要素价值最大化变得至关重要。国家通过布局全国一体化大数据中心体系、启动“东数西算”工程等一系列举措,为数据要素的跨域应用提供了基础设施。然而,传统的数据管理局限于单一域内,无法满足跨域场景下的数据管理需求。跨域数据管理面临通信层面的跨空间域挑战、数据建模层面的异构模型融合问题,以及数据访问层面的跨信任域挑战。从跨空间域、跨管辖域和跨信任域3个视角出发,探讨了跨域数据管理的内涵、研究挑战及关键技术,并展望了其未来发展趋势。 展开更多
关键词 数据管理 跨空间域 跨管辖域 跨信任域
在线阅读 下载PDF
数据科学的科学性与科学问题的分析 被引量:3
3
作者 朝乐门 《计算机科学》 CSCD 北大核心 2024年第1期26-34,共9页
作为一门新兴的学科领域,数据科学的科学性受到了关注且其科学问题未明确提出。文中从科学研究范式及方法论、可证伪性和可再现性、科学精神及快速迭代以及科学研究纲领及理论体系4个方面探讨了数据科学的“科学性”,并解答了为什么数... 作为一门新兴的学科领域,数据科学的科学性受到了关注且其科学问题未明确提出。文中从科学研究范式及方法论、可证伪性和可再现性、科学精神及快速迭代以及科学研究纲领及理论体系4个方面探讨了数据科学的“科学性”,并解答了为什么数据科学是一门新兴科学的问题。在此基础上,结合DIKW模型(DIKW Pyramid or Hierarchy)、DMP(Data-Model-Problem)模型、数据科学的统计学和机器学习方法论以及数据科学的流程与活动,提出了数据科学的7个核心科学问题:解释在先还是在后或无、问题对齐数据还是数据对齐问题、更加相信数据还是模型、更加重视性能还是可解释性、如何划分数据、如何用已知数据解决未知数据的问题、人在环路还是人出环路。最后,提出了数据科学研究的4点建议:聚焦数据科学本身的理论研究,推动数据的科学、技术和工程需要进一步分离和专业化,加强人工智能赋能的数据科学的理论与实践以及数据科学学科(Data Science as A Discipline)与学科中的数据科学(Data Science Within A Discipline)的联动。 展开更多
关键词 数据科学 科学属性 科学问题 DIKW模型
在线阅读 下载PDF
GPU数据库实现技术发展演进
4
作者 刘鹏 陈红 +1 位作者 张延松 李翠平 《计算机学报》 EI CAS CSCD 北大核心 2024年第11期2691-2724,共34页
爆炸式增长的数据对存储和处理数据提出了更高的需求,GPU数据库作为新硬件数据库的一个重要分支,在大容量和高性能处理方面有其独特的优势.GPU数据库作为高性能数据库的代表,在最近几年受到学术界和产业界的关注,一批具有代表性的研究... 爆炸式增长的数据对存储和处理数据提出了更高的需求,GPU数据库作为新硬件数据库的一个重要分支,在大容量和高性能处理方面有其独特的优势.GPU数据库作为高性能数据库的代表,在最近几年受到学术界和产业界的关注,一批具有代表性的研究成果和标志性的实际产品已经出现.GPU数据库的技术发展按照GPU加速型和GPU内存型两种技术路线展开.两种技术路线都有相应的原型系统或产品出现.虽然两种GPU数据库的发展路线在实现上有所不同,但GPU数据库最基本的功能部分和核心技术是相似的,都有查询编译、查询优化、查询执行以及存储管理等功能.当前主流的数据传输方案除了PCIe之外,NVLink、RDMA和CXL等传输方案也为不同处理器之间的数据传输提供了更多的可能性.大多数GPU数据库使用列存储模型来存储数据,少数GPU数据库(如PG-Strom)对两种存储模型都支持.在列存储模型上利用压缩技术能减少数据的存储空间和传输时延.在GPU数据库上进行的压缩和解压的时间应该在整个数据处理的过程中占比很少.在GPU数据库上建立和维护索引不应该有很大的系统开销.JIT编译时间短、编译效率高,是GPU数据库编译的主流.操作符对数据库查询性能的影响非常明显,连接操作、分组聚集和OLAP运算符是目前研究最多的三个类型.目前大多数的研究中,连接和分组聚集算子通常结合在一起研究.在连接算子执行的过程中还和表的连接顺序结合在一起进行考虑.OLAP算子是GPU数据库中的又一个被大量研究的算子,GPU数据库在OLAP算子和模型方面持续受到研究者的关注.GPU数据库有三种查询处理模型,即行处理、列处理和向量化处理.向量化处理和列处理在实际系统中应用较多.由于GPU加速型数据库技术的发展,CPU-GPU协同处理模型上的查询方案与查询引擎也有一定数量的研究成果出现.当前GPU数据库的查询优化研究主要有三部分:多表连接顺序、查询重写和代价模型.然而,GPU数据库的代价评估模型在目前还没有很好的解决方案,GPU数据库的查询优化在未来仍有很大的研究空间.事务在GPU数据库中没有得到很好的研究,尽管有单独的原型系统,但目前的研究还没有取得重大进展.本文总结了GPU数据库各种关键技术已有的研究成果,指出GPU数据库当前存在的问题和面临的挑战,对未来的研究方向进行了展望. 展开更多
关键词 GPU数据库 数据压缩 算子优化 OLAP查询 查询处理
在线阅读 下载PDF
数据库参数配置智能调优研究综述 被引量:3
5
作者 李奕言 田季坤 +2 位作者 蒲照 李翠平 陈红 《计算机学报》 EI CAS CSCD 北大核心 2024年第8期1901-1921,共21页
数据库系统具有大量的参数,这些参数控制了系统的内存分配、I/O优化、备份与恢复等诸多方面,极大地影响着数据库的性能.随着数据库和应用程序的规模和复杂性的增长,传统依靠数据库管理员手动配置参数的方式已经越来越难以满足用户需求.... 数据库系统具有大量的参数,这些参数控制了系统的内存分配、I/O优化、备份与恢复等诸多方面,极大地影响着数据库的性能.随着数据库和应用程序的规模和复杂性的增长,传统依靠数据库管理员手动配置参数的方式已经越来越难以满足用户需求.数据库参数配置智能调优将机器学习技术应用到参数调优领域,依据负载信息、数据库参数和性能,借助机器学习算法推荐一组最优的参数.本文针对现有参数配置智能调优技术,从调优方法、应用情况和未来挑战三个方面依次进行梳理和总结.首先将现有参数调优方法依据所用算法不同分为五类,从原理、技术、优缺点等方面对各类方法进行详细介绍和总结.之后介绍当前工业界主流的参数调优工具,分析参数配置智能调优在实际应用过程中遇到的问题及原因.最后,本文对数据库参数配置智能调优的未来研究方向进行了展望.本文旨在帮助研究者掌握当前数据库参数配置智能调优领域主流方法及面临的问题,以推动后续研究工作的开展. 展开更多
关键词 机器学习 参数调优 贝叶斯优化 强化学习 智能数据库
在线阅读 下载PDF
云数据库资源与参数协同调优方法研究 被引量:2
6
作者 李雨航 谭睿雄 柴云鹏 《计算机科学》 CSCD 北大核心 2024年第6期104-110,共7页
云数据库中存在许多配置项,包括数据库内部的配置参数以及部署环境的虚拟机资源配置,这些配置项共同决定了数据库的读写性能和资源消耗。在资源弹性伸缩的云环境下,用户关注数据库的服务性能和资源消耗成本。然而,由于配置项众多且负载... 云数据库中存在许多配置项,包括数据库内部的配置参数以及部署环境的虚拟机资源配置,这些配置项共同决定了数据库的读写性能和资源消耗。在资源弹性伸缩的云环境下,用户关注数据库的服务性能和资源消耗成本。然而,由于配置项众多且负载变化快速,寻找最优的配置项组合变得困难。文中针对负载动态变化的在线调优场景提出了CoTune,一种协同调节云数据库资源与参数的快速调优方法。该方法针对OLTP型动态负载,通过迭代调节云虚拟机资源配置和数据库参数配置,在保障服务质量的前提下降低资源消耗。该方法的创新点如下:首先,在每个调优周期内,采用三阶段方案对资源配额和数据库参数进行调节,优先保障服务质量;其次,根据数据库参数对不同资源的影响进行分类,减小搜索空间,快速调节参数;最后,在数据库参数调节的强化学习模型中,设计特定的奖励函数,快速获取奖励值,加快调节频率。实验结果表明,该方法相比同时调节资源和参数、单独调节资源等方法,能够在保障服务质量的前提下降低资源消耗。通过快速迭代调优,能够应对负载变化的挑战,并在动态负载环境中实现更高效的资源利用。 展开更多
关键词 云数据库 参数调优 服务质量 资源消耗
在线阅读 下载PDF
基于可解释性结果的数据故事化关键技术分析、融合与应用 被引量:1
7
作者 靳庆文 李美静 《情报杂志》 CSSCI 北大核心 2024年第11期129-138,共10页
[研究目的]明确可解释性结果用于数据故事化的关键技术类型,探索技术融合框架辅助数据故事化的应用流程,对于深度挖掘数据潜在价值、实现解释结果的故事化呈现具有重要意义。[研究方法]为建好可解释性结果与数据故事化的连接,提出了LIM... [研究目的]明确可解释性结果用于数据故事化的关键技术类型,探索技术融合框架辅助数据故事化的应用流程,对于深度挖掘数据潜在价值、实现解释结果的故事化呈现具有重要意义。[研究方法]为建好可解释性结果与数据故事化的连接,提出了LIME改进技术、要素关联技术、高潮点识别技术和故事化自动生成技术,并进一步构建基于四种关键技术的融合框架和故事化流程。[研究结论]LIME改进算法的拟合优度由之前的0.50提高到0.82,且与原始LIME方法相比,残差降低了95%,识别出的高潮点相较于初始样本点,其特征变化幅度在局部区域保证最小。本研究实现了基于特征变化的数据故事的自动化生成,证明技术融合框架在实现故事化解释方面是有效的。 展开更多
关键词 可解释性结果 数据故事化 关键技术 技术融合 技术识别
在线阅读 下载PDF
广域确定性网络传输技术综述 被引量:1
8
作者 李彤 徐都玲 +5 位作者 吴波 郭雄文 蒋岱均 罗成 卢卫 杜小勇 《软件学报》 北大核心 2025年第1期371-398,共28页
广域网作为连接新业务、新基础设施和各类新型应用的纽带,已成为21世纪最重要的基础设施之一.近年来,数据量爆炸性增长,伴随着基于广域网的大模型、数字经济、元宇宙和全息社会等新型应用形态的持续涌现,以及东数西算、算力网络和数据... 广域网作为连接新业务、新基础设施和各类新型应用的纽带,已成为21世纪最重要的基础设施之一.近年来,数据量爆炸性增长,伴随着基于广域网的大模型、数字经济、元宇宙和全息社会等新型应用形态的持续涌现,以及东数西算、算力网络和数据场等新型业务架构的出现,业务对广域网的数据传输服务质量提出了越来越高的要求.以时延为例,广域网不仅需要提供及时的服务,还需要提供准时的服务,即时延成为必须满足的确定性指标.因此,广域确定性网络作为广域网的新范式应运而生.系统地综述确定性网络的内涵,回顾传统确定性网络相关技术发展脉络,介绍广域确定性网络的新应用,探讨广域网确定性网络传输具有的新特征以及面临的新挑战,并提出广域确定性网络的新目标.基于上述新应用、新特征、新挑战和新目标,详细总结当前广域确定性网络领域的主要研究进展,并给出未来研究的方向.期望能为广域确定性网络领域的研究提供参考和帮助. 展开更多
关键词 广域网 确定性网络 数据传输 改良式 革命式
在线阅读 下载PDF
架构大数据:挑战、现状与展望 被引量:620
9
作者 王珊 王会举 +1 位作者 覃雄派 周烜 《计算机学报》 EI CSCD 北大核心 2011年第10期1741-1752,共12页
大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点.为了设计适合大数据分析的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架... 大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点.为了设计适合大数据分析的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望. 展开更多
关键词 大数据 大规模可扩展 MAPREDUCE 并行数据库 深度分析
在线阅读 下载PDF
海量数据分析的One-size-fits-all OLAP技术 被引量:32
10
作者 张延松 焦敏 +2 位作者 王占伟 王珊 周烜 《计算机学报》 EI CSCD 北大核心 2011年第10期1936-1946,共11页
传统的OLAP被迅速膨胀的海量数据推动进入了大规模数据分析时代,其主要特点是存储密度大,计算强度大,需要大规模并行存储和处理能力.无论是传统的并行数据库技术还是热点的MapReduce技术都不得不面对海量数据在大规模并行处理环境下的... 传统的OLAP被迅速膨胀的海量数据推动进入了大规模数据分析时代,其主要特点是存储密度大,计算强度大,需要大规模并行存储和处理能力.无论是传统的并行数据库技术还是热点的MapReduce技术都不得不面对海量数据在大规模并行处理环境下的性能和并行处理效率的问题.以星型模型上复杂多表连接为基础的OLAP算法的复杂度和并行处理过程中的数据网络传输代价都成为制约性能的重要因素.通过深入分析OLAP存储模型和查询负载特征,提出了对OLAP查询中最基础的SPJGA-OLAP子集在存储、查询处理、数据分布、网络传输和分布式缓存等方面面向海量数据大规模并行处理框架的优化策略和实现技术.通过对TPC-H和SSB两个工业界和学术界公认的测试标准的分析,评估了技术的可行性.提出了以内存predicate-vector DDTA-JOIN算法为核心的并行内存OLAP架构,以维表上规范化的谓词向量操作替代了多样的连接执行计划,实现以一种查询处理模型同时满足集中式处理和大规模并行OLAP处理的需求,充分利用现代计算机的硬件优势,最小化网络传输和OLAP查询处理代价.实验中分析了在1TB和100TB数据集中数据分布策略的存储代价和传输代价,通过并行OLAP代价模型和实际数据的实验测试验证了技术的可行性和并行处理效率. 展开更多
关键词 OLAP 海量数据分析处理 谓词向量 星型模型
在线阅读 下载PDF
无线传感器网络数据隐私保护技术 被引量:64
11
作者 范永健 陈红 张晓莹 《计算机学报》 EI CSCD 北大核心 2012年第6期1131-1146,共16页
研究和解决数据隐私保护问题对无线传感器网络的大规模应用具有重要意义,同时无线传感器网络的特征使得数据隐私保护技术面临严重挑战.目前无线传感器网络数据隐私保护技术已成为研究热点,主要针对数据聚集、数据查询和访问控制中数据... 研究和解决数据隐私保护问题对无线传感器网络的大规模应用具有重要意义,同时无线传感器网络的特征使得数据隐私保护技术面临严重挑战.目前无线传感器网络数据隐私保护技术已成为研究热点,主要针对数据聚集、数据查询和访问控制中数据隐私保护问题进行了研究.文中对无线传感器网络数据隐私保护现有研究成果进行了总结,从数据操作任务和隐私保护实现技术两个维度对现有研究成果进行了分类,介绍了网络模型、攻击模型和安全目标,阐述了代表性协议的关键实现技术,分析和比较了代表性协议的性能并总结了各协议的主要优缺点,最后指出了未来的研究方向. 展开更多
关键词 物联网 无线传感器网络 隐私保护 数据聚集 数据查询 访问控制
在线阅读 下载PDF
数据科学研究的现状与趋势 被引量:81
12
作者 朝乐门 邢春晓 张勇 《计算机科学》 CSCD 北大核心 2018年第1期1-13,共13页
大数据时代的到来催生了一门新的学科——数据科学。首先,探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系。其次,分析现阶段数据科学的研究特点,并分别提出了... 大数据时代的到来催生了一门新的学科——数据科学。首先,探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系。其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的数据科学及大数据生态系统中的相对热门话题。接着,探讨了数据科学研究中的10个争议及挑战:思维模式的转变(知识范式还是数据范式)、对数据的认识(主动属性还是被动属性)、对智能的认识(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)、人才培养(数据工程师还是数据科学家)。然后,提出了数据科学研究的10个发展趋势:预测模型及相关分析的重视,模型集成及元分析的兴起,数据在先、模式在后或无模式的出现,数据一致性及现实主义的回归,多副本技术及靠近数据原则的广泛应用,多样化技术及一体化应用并存,简单计算及实用主义占据主导地位,数据产品开发及数据科学的嵌入式应用,专家余及公众数据科学的兴起,数据科学家与人才培养的探讨。最后,结合文中工作,对数据科学研究者给出了几点建议和注意事项。 展开更多
关键词 数据科学 大数据 数据产品开发 数据加工 数据驱动
在线阅读 下载PDF
面向查询服务的数据隐私保护算法 被引量:33
13
作者 朱青 赵桐 王珊 《计算机学报》 EI CSCD 北大核心 2010年第8期1315-1323,共9页
个性化信息服务提高了Web查询精度,但同时也带来数据隐私保护的问题.尤其在面向服务的架构(SOA)中,部署个性化应用时,如何解决隐私保护,这对于个性化服务是一个挑战.随着隐私安全成为微数据发布过程中越来越重要的问题,好的匿名化算法... 个性化信息服务提高了Web查询精度,但同时也带来数据隐私保护的问题.尤其在面向服务的架构(SOA)中,部署个性化应用时,如何解决隐私保护,这对于个性化服务是一个挑战.随着隐私安全成为微数据发布过程中越来越重要的问题,好的匿名化算法就显得尤为重要.论文总结了前人研究中考虑到准标识符对敏感属性影响的k-匿名算法,提出了直接通过匿名化数据计算准标识符对敏感属性效用的方法以及改进的效用矩阵,同时为了更好地衡量匿名化数据的信息损失,论文中提出了改进的归一确定性惩罚的评价指标,从匿名化数据隐私安全的角度进行分析,实现了改进L-diversity算法,即基于信息损失惩罚的满足L-diversity的算法.它是准标识符对不同敏感属性效用的、并具有较好隐私安全的改进算法. 展开更多
关键词 隐私保护 K-匿名 L-差异 SOA 服务计算
在线阅读 下载PDF
国内外知识库研究现状述评与比较 被引量:39
14
作者 张斌 魏扣 郝琦 《图书情报知识》 CSSCI 北大核心 2016年第3期15-25,共11页
知识库是存储、组织和处理知识以及提供知识服务的重要知识集合,知识库的构建正在成为各行各业开展知识管理和知识服务的基础。本文分别对国内外有关知识库方面的研究现状进行了梳理和总结,认为国内的研究成果主要集中在知识库构建的理... 知识库是存储、组织和处理知识以及提供知识服务的重要知识集合,知识库的构建正在成为各行各业开展知识管理和知识服务的基础。本文分别对国内外有关知识库方面的研究现状进行了梳理和总结,认为国内的研究成果主要集中在知识库构建的理论与实践以及不同类型知识库研究三个方面,国外则对知识库的概念认识、框架和结构、知识库中运用的技术和方法以及知识库在不同领域的应用均有较为深入的研究。通过对国内外研究成果的比较分析得出国内外知识库研究的共同点在于研究关注点、研究方法以及均缺少档案知识库的研究,区别在于研究主体、研究视角和研究深度的不同,最后提出了目前知识库研究成果对档案知识库构建的三点启示。 展开更多
关键词 知识库 知识服务 机构知识库 维基技术 档案知识库
在线阅读 下载PDF
数据科学及其对信息科学的影响 被引量:37
15
作者 朝乐门 卢小宾 《情报学报》 CSSCI CSCD 北大核心 2017年第8期761-771,共11页
大数据时代的到来,尤其是数据科学的出现对信息科学的发展正在产生深远影响。首先,分析数据科学的内涵、理论体系、研究现状及发展趋势。其次,深入探讨数据科学与领域知识之间的内在联系,提出数据科学将成为信息科学领域知识的新理论基... 大数据时代的到来,尤其是数据科学的出现对信息科学的发展正在产生深远影响。首先,分析数据科学的内涵、理论体系、研究现状及发展趋势。其次,深入探讨数据科学与领域知识之间的内在联系,提出数据科学将成为信息科学领域知识的新理论基础,并为其提供重要的方法、技术和工具;最后,从理论基础、学科定位、数据认知、研究范式、研究重点五个方面讨论数据科学对信息科学的影响,并指出了大数据时代信息科学研究的新课题。 展开更多
关键词 大数据 数据科学 数据工程 信息科学 情报学 图书馆学 档案学
在线阅读 下载PDF
政府数据治理与利用能力研究:现状、问题与建议 被引量:29
16
作者 安小米 许济沧 +2 位作者 黄婕 王丽丽 白文琳 《图书情报知识》 CSSCI 北大核心 2021年第5期20-33,共14页
[目的/意义]开展政府数据治理与利用能力相关的文献研究,发现现有研究存在的问题,为未来研究提供方向。[研究设计/方法]面向国家战略需求,以政府数据治理与利用能力研究中的关键问题为导向,分别从政府数据依法治理与数据可用能力、政府... [目的/意义]开展政府数据治理与利用能力相关的文献研究,发现现有研究存在的问题,为未来研究提供方向。[研究设计/方法]面向国家战略需求,以政府数据治理与利用能力研究中的关键问题为导向,分别从政府数据依法治理与数据可用能力、政府数据源头治理与数据有用能力、政府数据精准治理与数据易用能力、政府数据长效治理与数据善用能力四个方面开展了代表性文献的研究及中外差异的比较。[结论/发现]通过对比分析发现现有国内研究侧重操作层,国外研究侧重战略层;从国家层面提出了政府数据依法治理-数据可用能力构建、政府数据源头治理-数据有用能力构建、政府数据精准治理-数据易用能力构建、政府数据长效治理-数据善用能力构建的系统性研究建议。[创新/价值]所提出的政府数据治理与利用能力系统性研究动议,为"十四五"时期数据赋能国家治理体系和治理能力现代化研究提供了新的方向。 展开更多
关键词 政府数据 数据治理 数据利用 能力构建
在线阅读 下载PDF
我国政府数据治理与利用能力框架构建研究 被引量:25
17
作者 安小米 王丽丽 +2 位作者 许济沧 黄婕 白文琳 《图书情报知识》 CSSCI 北大核心 2021年第5期34-47,共14页
[目的/意义]从政府数据依法治理、源头治理、精准治理和长效治理国家战略需求出发,提出我国政府数据治理与利用能力框架构建的基本逻辑,对整体提升国家治理体系和治理能力现代化建设水平具有战略意义和学术价值。[研究设计/方法]面向国... [目的/意义]从政府数据依法治理、源头治理、精准治理和长效治理国家战略需求出发,提出我国政府数据治理与利用能力框架构建的基本逻辑,对整体提升国家治理体系和治理能力现代化建设水平具有战略意义和学术价值。[研究设计/方法]面向国家治理体系和治理能力现代化目标,分别对政府数据治理和政府数据利用能力国内外相关研究进行现状批判分析,在此基础上提出我国政府数据治理与利用能力框架构建的总体思路、框架的基本构成和框架构建的实施路径。[结论/发现]针对我国国家治理体系和治理能力现代化建设中尚缺少满足国家层面的政府数据治理与利用能力框架的战略需求,提出由政府数据依法治理-数据可用能力、政府数据源头治理-数据有用能力、政府数据精准治理-数据易用能力、政府数据长效治理-数据善用能力构成的多维政府数据治理与利用能力框架。[创新/价值]从国家层面出发,提出需求导向、问题导向和目标导向的多维政府数据治理和利用能力框架的新诠释、新视角、新思路和新路径,对政府数据治理与利用能力制度保障、质量保障、技术保障和安全保障具有一定的研究贡献。 展开更多
关键词 政府数据 数据治理 数据利用 能力框架
在线阅读 下载PDF
全景式大数据质量评估指标框架构建研究 被引量:7
18
作者 安小米 黄婕 +4 位作者 许济沧 王丽丽 洪学海 王志强 韩新伊 《管理科学学报》 CSSCI CSCD 北大核心 2023年第5期138-153,共16页
大数据质量评估工作是促进数字经济、数字社会、数字政府高质量发展的重要保障.本研究针对当前大数据质量评估指标缺少标准化文件来源和全景式评估的相关问题,梳理出大数据质量评估的多种应用场景,以综合集成方法论为指导提出由“人理-... 大数据质量评估工作是促进数字经济、数字社会、数字政府高质量发展的重要保障.本研究针对当前大数据质量评估指标缺少标准化文件来源和全景式评估的相关问题,梳理出大数据质量评估的多种应用场景,以综合集成方法论为指导提出由“人理-事理-数理-机理”(HBDA)构成的全景式大数据质量评估视角.采用内容分析和编码方法,以大数据质量相关标准化文件丰富指标来源的代表性文献,经过3名研究人员的两轮筛选,构建出由56个指标构成的全景式大数据质量评估指标框架.采用案例研究法,开展B市国际大数据交易所、B市城市管理综合行政执法局和B市大数据中心三个实践案例研究,有效验证了该框架的正确性和可用性.所提出的HBDA视角下全景式大数据质量评估指标框架,拓展了全景式PAGE框架在大数据质量评估多场景中的应用;创新了大数据质量评估多维标准化协同的路径;对整体提升数字经济、数字社会和数字政府建设中的大数据质量具有战略意义,对增强数字国家的数据治理能力、大数据驱动的管理与决策能力具有指导意义. 展开更多
关键词 大数据质量 评估指标 框架构建 全景式框架 HBDA视角
在线阅读 下载PDF
大数据探索式搜索研究 被引量:9
19
作者 杜小勇 陈峻 陈跃国 《通信学报》 EI CSCD 北大核心 2015年第12期77-88,共12页
数据探索(data exploration)是有别于数据服务与数据分析的第3种体现大数据价值的技术手段。数据服务强调从微观层面获取满足用户需求的精准信息;数据分析强调从宏观层面为用户提供数据洞察,进而提供决策支持;而数据探索是一种支持用户... 数据探索(data exploration)是有别于数据服务与数据分析的第3种体现大数据价值的技术手段。数据服务强调从微观层面获取满足用户需求的精准信息;数据分析强调从宏观层面为用户提供数据洞察,进而提供决策支持;而数据探索是一种支持用户在微观层面和宏观层面进行自由切换的、深入浅出的、交互式发掘数据价值的方式。首先,简要介绍大数据价值发掘的传统技术手段和特点,并引入探索式搜索;其次,详细阐述探索式搜索的定义与模型,总结探索式搜索的特点;随后,基于组件化的思想,设计探索式搜索系统框架,并综述每个组件所涉及到的挑战与关键技术;最后简要介绍了笔者在知识库探索式搜索方面的尝试。 展开更多
关键词 大数据 知识库 探索式搜索 数据探索
在线阅读 下载PDF
云计算环境中面向OLTP应用的数据分布研究 被引量:10
20
作者 王晓燕 陈晋川 杜小勇 《计算机学报》 EI CSCD 北大核心 2016年第2期253-269,共17页
云计算为大型OLTP应用中分布式数据的高效存储和管理带来了新的机遇,大数据则对分布式数据的存储与管理提出了新的挑战,自动数据分布逐渐成为分布式系统中的研究重点和难点.该文对影响数据分布问题的三要素数据、负载和节点进行分析,将... 云计算为大型OLTP应用中分布式数据的高效存储和管理带来了新的机遇,大数据则对分布式数据的存储与管理提出了新的挑战,自动数据分布逐渐成为分布式系统中的研究重点和难点.该文对影响数据分布问题的三要素数据、负载和节点进行分析,将该问题抽象为数据分片、数据分配和负载执行3个相互关联的子问题,提出了数据分布问题的三角架构DaWN.由于不同的系统有不同的应用需求,DaWN架构以代价模型为枢纽,对特定应用需要达到的效能目标和资源限制进行调配,并提出了数据分布问题所面临的技术挑战.该文对DaWN架构中以顶点为代表的3个基本要素进行详细分析,着重对以边为代表的3条关联关系进行阐释,并据此对云环境中大规模OLTP应用的数据分片、数据分配和负载执行3个数据分布子问题的研究成果和进展进行归纳和总结.基于以上分析,该文以数据分片、数据分片和负载执行为变量,使用真值表覆盖数据分布问题中的8种类型,并采用三维立体坐标系的方式对相关工作的分布进行归纳总结和呈现.最后,该文从代价模型研究、测试基准研究、自动化数据分布技术研究、特定应用研究等4个角度,对数据分布问题的未来发展方向进行展望. 展开更多
关键词 数据分布 三角架构 数据分片 数据分配 OLTP 大数据
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部