期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
新时期我国工业软件产业发展路径研究 被引量:39
1
作者 邵珠峰 赵云 +3 位作者 王晨 冯希光 王建民 熊虹婷 《中国工程科学》 CSCD 北大核心 2022年第2期86-95,共10页
工业软件产业是制造业高质量发展的重要支撑,在新时期制造强国战略背景下,工业软件成为优化制造与管理流程、变革生产方式与生产关系、提升全要素生产率、促进先进工业技术转化及溢出的直接动力。我国正在构建自主可控、安全高效的现代... 工业软件产业是制造业高质量发展的重要支撑,在新时期制造强国战略背景下,工业软件成为优化制造与管理流程、变革生产方式与生产关系、提升全要素生产率、促进先进工业技术转化及溢出的直接动力。我国正在构建自主可控、安全高效的现代产业体系,在挑战原有“技术–生产–市场”分工模式的同时,也为工业软件产业发展创造了重要机遇。本文从当前国际市场格局出发,分类解析了工业软件产品的基本特征与市场份额情况,剖析了我国工业软件产业发展的不足与问题,归纳了工业软件产业的平台化、开源化两大新发展趋势;据此提出补短强基、追赶突破、卓越引领3条发展路径,以期针对性补强产业不足、切实提升产业水平。研究建议,优化组织模式,发挥工业企业的主体带动作用;细化政策对象,分层次推进工业软件关键技术突破;扩大应用市场,促进工业软件产品创新;挖掘人才潜能,多渠道支持工业软件人才培养。 展开更多
关键词 工业软件 系统集成 产业瓶颈 卓越引领工程
在线阅读 下载PDF
面向季节性时空数据的预测式循环网络及其在城市计算中的应用 被引量:12
2
作者 张建晋 王韫博 +2 位作者 龙明盛 王建民 王海峰 《计算机学报》 EI CSCD 北大核心 2020年第2期286-302,共17页
实际生活中有很多带有季节特征的时空数据,在城市计算领域分布尤广,例如交通流量数据便具有较为明显的以天或周为周期的统计学特征.如何有效利用这种季节特征,如何捕捉历史观测与待预测数据之间的相关性,成为了预测此类时空数据未来变... 实际生活中有很多带有季节特征的时空数据,在城市计算领域分布尤广,例如交通流量数据便具有较为明显的以天或周为周期的统计学特征.如何有效利用这种季节特征,如何捕捉历史观测与待预测数据之间的相关性,成为了预测此类时空数据未来变化趋势的关键.传统时序建模方法将时序数据分解为多个信号分量,并使用线性模型来进行预测.此类方法具有较强的理论基础,但对于数据的平稳性要求过于严格,难以预测趋势信息复杂的数据,更不适用于高维的时空数据.然而在真实场景下,季节性时空数据的周期长短可变,且不同周期的对应关系往往并不固定,存在时间、空间上的模式变化与偏移,很难作为理想的周期信号以传统时序方法建模.相比之下,深度神经网络建模能力更强,可拟合更为复杂的数据.近几年有许多工作研究了如何利用卷积神经网络和循环神经网络来处理时空数据,也有一些工作讨论了如何有效利用周期性信息提升预测的准确性.但深度神经网络受困于梯度消失和误差累积,难以捕捉时序数据中的长时间依赖,且少有方法讨论如何在深度神经网络中有效建模上述具有弹性周期对应关系的时空信号.本文针对真实场景下季节性时空数据的上述问题,给出具有弹性周期对应关系的时空数据预测问题的形式化定义,并提出了一种新的季节性时空数据预测模型.该模型包含季节网络、趋势网络、时空注意力模块三个部分,可捕捉短期数据中的临近变化趋势和长期数据中隐含的季节性趋势,并广泛考虑历史周期中的每个时空元素对未来预测值的影响.为了解决深度循环网络难以捕捉时序数据中的长时间依赖的问题,本文提出一种新的循环卷积记忆单元,该单元将上述模块融合于一个可端到端训练的神经网络中,一方面实现了时间和空间信息统一建模,另一方面实现了短期趋势特征与历史周期特征的统一建模.进一步地,为了解决季节性数据中的各周期时空元素对应关系不固定的问题,本文探讨了多种基于注意力模块的时空数据融合方式,创新性地提出一种级联式的时空注意力模块,并将其嵌入于上述循环卷积记忆单元内.该模块建模记忆单元的隐藏状态在不同周期内的弹性时空对应关系,自适应地选取相关度高的季节性特征辅助预测.实验部分,我们选取了两个时空数据预测在城市计算中最为典型的应用:交通流量预测和气象数据预报.本文所提出的时空周期性循环神经网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性. 展开更多
关键词 深度学习 注意力模型 时空预测 城市计算 时空数据
在线阅读 下载PDF
物联网大数据场景下的分布式哈希表适用条件分析 被引量:17
3
作者 安彦哲 朱妤晴 王建民 《计算机学报》 EI CAS CSCD 北大核心 2021年第8期1679-1695,共17页
针对“新基建”带来的物联网大数据管理真实应用场景中的挑战,本文对当前最优实践所用的大规模数据管理系统的核心——分布式哈希表(Distributed Hash Table,DHT),第一次基于极高写入负载和数据流量两个要素,进行了适用条件的理论推导分... 针对“新基建”带来的物联网大数据管理真实应用场景中的挑战,本文对当前最优实践所用的大规模数据管理系统的核心——分布式哈希表(Distributed Hash Table,DHT),第一次基于极高写入负载和数据流量两个要素,进行了适用条件的理论推导分析.面向存储空间、带宽和时间三方面的限制关系,从理论上分析了写入负载和联网带宽对DHT负载再均衡条件的影响,并推导出DHT负载再均衡设计仅适用于一定规模的物联网数据管理场景,而不适用于大规模物联网数据管理的结论.利用了基于DHT的业界常用系统Cassandra的物联网数据负载实验以及系统级模拟器的大量仿真实验结果验证了理论推导结果的有效性.基于理论结果对真实案例进行了应用分析,表明本文的理论结果可用于分析解决当前基于DHT系统支撑物联网数据负载出现的问题,并可用于分析和指导物联网数据管理系统的设计. 展开更多
关键词 物联网数据管理 分布式哈希表 负载均衡 时序数据 时序数据库
在线阅读 下载PDF
一种基于最大流的分布式存储系统中查询任务最优分配算法 被引量:13
4
作者 徐毅 王建民 +3 位作者 黄向东 董一峰 康荣 乔嘉林 《计算机学报》 EI CSCD 北大核心 2019年第8期1858-1872,共15页
分布式存储系统多采用数据分区和多副本机制来处理海量数据并提供高可用性.为了提高读写效率,现有系统在将任务分发给不同节点时往往需要考虑数据分区的情况,并使得任务分配能够保证数据本地性.然而,给定一个需要访问多个数据分区的查... 分布式存储系统多采用数据分区和多副本机制来处理海量数据并提供高可用性.为了提高读写效率,现有系统在将任务分发给不同节点时往往需要考虑数据分区的情况,并使得任务分配能够保证数据本地性.然而,给定一个需要访问多个数据分区的查询任务,现有系统没有充分考虑节点的实际负载情况,导致虽然任务的分配满足数据本地性,但集群查询响应速度仍受到制约.该文提出一种在分布式存储系统中查询任务的节点分配算法,该算法不仅考虑了数据本地性,还利用了多副本机制确保节点间的负载均衡.算法的基本思想是将任务分配问题转化为最大流问题,并通过二分查找寻求最优分配方案.在实验阶段,该文首先通过模拟实验验证该算法的正确性,之后将该算法集成到Cassandra中作为一种新的负载均衡策略,并与Cassandra原生的两种策略进行性能对比.实验证明,该文提出的算法使得查询性能优于Cassandra原生的策略,平均查询时间缩短为原有策略的50%,某些情况下可以缩短为11%. 展开更多
关键词 数据分区 数据本地性 查询优化 最大流 负载均衡 分布式存储系统
在线阅读 下载PDF
多区间速度约束下的时序数据清洗方法 被引量:18
5
作者 高菲 宋韶旭 王建民 《软件学报》 EI CSCD 北大核心 2021年第3期689-711,共23页
为进一步优化推广大数据及人工智能技术,作为数据管理与分析的基础,数据质量问题日益成为相关领域的研究热点.通常情况下,数据采集及记录仪的物理故障或技术缺陷等会导致收集到的数据存在一定的错误,而异常错误会对后续的数据分析以及... 为进一步优化推广大数据及人工智能技术,作为数据管理与分析的基础,数据质量问题日益成为相关领域的研究热点.通常情况下,数据采集及记录仪的物理故障或技术缺陷等会导致收集到的数据存在一定的错误,而异常错误会对后续的数据分析以及人工智能过程产生不可小视的影响,因此在数据应用之前,需要对数据进行相应的数据清洗修复.现存的平滑修复方法会导致大量原本正确的数据点过度修复为异常值,而基于约束的顺序依赖方法以及SCREEN方法等也因为约束条件较为单薄而无法对复杂的数据情况进行精确修复.基于最小修复原则,进一步提出了多区间速度约束下的时间序列数据修复方法,并采用动态规划方法来求解最优修复路径.具体来说,提出了多个速度区间来对时序数据进行约束,并根据多速度约束对各数据点形成一系列修复候选点,进而基于动态规划方法从中选取最优修复解.为验证上述方法的可行性和有效性,采用一个人工数据集、两个真实数据集以及一个带有真实错误的数据集在不同的异常率及数据量下对上述方法进行实验.由实验结果可知:相较于其他现存的修复方法,该方法在修复结果及时间开销方面均有着较好的表现.进一步,对多个数据集通过聚类及分类精确率的验证来表明数据质量问题对后续数据分析及人工智能的影响至关重要,本方法可以提升数据分析及人工智能结果的质量. 展开更多
关键词 时间序列 多区间速度约束 数据清洗 动态规划
在线阅读 下载PDF
大规模时间序列分析框架的研究与实现 被引量:11
6
作者 滕飞 黄齐川 +2 位作者 李天瑞 王晨 田春华 《计算机学报》 EI CSCD 北大核心 2020年第7期1279-1292,共14页
工业互联时代,每天数以亿计的传感器源源不断生成时间序列,用以记录工业设备的温度、振动、压力、曲度和张力等参数.如何从这些非结构化的时间序列中挖掘出有价值信息,并运用于状态监测、故障诊断和控制决策,引起了广泛的关注和研究.随... 工业互联时代,每天数以亿计的传感器源源不断生成时间序列,用以记录工业设备的温度、振动、压力、曲度和张力等参数.如何从这些非结构化的时间序列中挖掘出有价值信息,并运用于状态监测、故障诊断和控制决策,引起了广泛的关注和研究.随着数据规模日益增长,能够提供较为完备数据分析算法库的主流单机环境如Matlab、R等已无法较好地应对大规模时间序列分析场景下的数据处理需求.而现有的并行分析算法数量有限,常与平台相互绑定,更换平台需对算法进行二次开发,可扩展性较差.本文旨在设计一种通用的近似解分析框架,支持第三方算法快速实现并行化,解决因数据规模过大而导致的算法适用性问题.分析框架主要包含任务划分、治理和合并三个步骤.任务划分通过冗余保留了数据的局部相关性,生成相互独立的子任务,减少分布式节点之间的数据通信和同步开销.对于任务划分问题,本文提出了近似解代价模型,得到了最优的任务划分方案.基于Spark平台设计并实现了原型系统,实验结果表明,该系统在确保分析结果准确性的前提下,其加速能力随着并行程度保持近似线性的增长,解决了单机算法的数据规模受限问题.同时,该系统易于集成与扩展,使数据分析人员免于算法重复开发. 展开更多
关键词 时间序列 算法并行化 近似解 分治 SPARK
在线阅读 下载PDF
工业互联网平台:发展趋势与挑战 被引量:77
7
作者 王晨 宋亮 李少昆 《中国工程科学》 CSCD 北大核心 2018年第2期15-19,共5页
随着制造业和新一代互联网、信息化技术的融合,工业互联网高速发展。无论是国际制造业的领先企业,还是我国的制造业国家战略都明确了工业互联网平台研发的重要性。本文对工业互联网平台的发展趋势进行了阐释,并对平台在用户生态、开发... 随着制造业和新一代互联网、信息化技术的融合,工业互联网高速发展。无论是国际制造业的领先企业,还是我国的制造业国家战略都明确了工业互联网平台研发的重要性。本文对工业互联网平台的发展趋势进行了阐释,并对平台在用户生态、开发者生态和数据生态构建中的挑战展开了分析,并有针对性地探讨了工业互联网平台在工业大数据系统与工业数据建模和分析方面所遇到的技术挑战。 展开更多
关键词 工业互联网平台 工业大数据 数据分析
在线阅读 下载PDF
HDFS存储和优化技术研究综述 被引量:42
8
作者 金国栋 卞昊穹 +1 位作者 陈跃国 杜小勇 《软件学报》 EI CSCD 北大核心 2020年第1期137-161,共25页
HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量... HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向. 展开更多
关键词 HDFS 分布式文件系统 存储系统优化 数据分析
在线阅读 下载PDF
基于超级参数调整的网络表示学习算法性能公平比较框架 被引量:5
9
作者 郭梦影 孙振宇 +1 位作者 朱妤晴 包云岗 《计算机学报》 EI CAS CSCD 北大核心 2022年第5期897-917,共21页
网络结构数据在现今生活中广泛存在,但由于数据结构稀疏、规模较大等特性,难以直接利用现有的机器学习算法对数据进行分析.网络表示学习算法的出现,通过将高维数据映射到低维向量空间,解决了上述问题.但是网络表示学习算法中存在大量超... 网络结构数据在现今生活中广泛存在,但由于数据结构稀疏、规模较大等特性,难以直接利用现有的机器学习算法对数据进行分析.网络表示学习算法的出现,通过将高维数据映射到低维向量空间,解决了上述问题.但是网络表示学习算法中存在大量超级参数,参数的选择与数据分析任务密切相关且对算法性能有明显影响,如何针对数据分析任务,通用地对多种网络表示学习算法进行超级参数调整,以获取不同算法的最优性能,实现算法间性能的公平比较,从而选择出最优者对数据进行分析,是一个亟待解决的问题.此外,对算法进行超级参数调整通常需要花费较长时间,且由于网络结构数据规模通常较大,还会有内存占用过高问题的存在,因此如何能够在有资源限制(时间、内存占用)的条件下进行超级参数调整,是面临的另一个问题.基于上述两个问题,本文提出了基于超级参数调整的网络表示学习算法性能公平比较框架JITNREv,能够在有资源限制的条件下通用对多种网络表示学习算法进行超级参数调整,通过获取不同算法针对相同数据分析任务的性能最优值,实现算法之间的性能公平比较.该框架具有4个松耦合且可扩展的组件,组件间仅通过数据流进行交互,并在闭环结构中完成样本的测试优化,满足了框架的通用性.JITNREv基于拉丁超立方采样对超级参数进行采样;根据“当前最优值附近,有更大概率出现更优值”的假设对采样范围进行剪枝;针对超大规模数据集,提出了图粗化方式在保留数据结构的基础上压缩数据规模,满足了资源限制条件下对超级参数进行调整的要求.框架还融合了网络表示学习算法常用的评测数据集、评测指标和数据分析应用,实现了框架的易用性.实验证明JITNREv框架能够在资源限制条件下稳定提高算法性能,例如,针对GCN算法的节点分类任务相比默认参数设置,JITNREv框架能够将性能提升31%. 展开更多
关键词 网络表示学习 网络嵌入 图卷积网络 自动化机器学习 超级参数调整
在线阅读 下载PDF
时间序列对称模式挖掘 被引量:2
10
作者 李盼盼 宋韶旭 王建民 《软件学报》 EI CSCD 北大核心 2022年第3期968-984,共17页
随着信息化和工业化的融合,物联网和工业互联网蓬勃发展,由此产生了以时间序列为代表的大量工业大数据.时间序列中蕴含着很多有价值的模式,其中,对称模式在各类时间序列中广泛存在.挖掘对称模式对于行为分析、轨迹跟踪、异常检测等领域... 随着信息化和工业化的融合,物联网和工业互联网蓬勃发展,由此产生了以时间序列为代表的大量工业大数据.时间序列中蕴含着很多有价值的模式,其中,对称模式在各类时间序列中广泛存在.挖掘对称模式对于行为分析、轨迹跟踪、异常检测等领域具有重要的研究价值,但时间序列的数据量往往高达几十甚至上百GB.使用直接的嵌套查询算法挖掘对称模式可能花费数月乃至数年的时间,而索引、下界和三角不等式等典型加速技术最多只能产生一两个数量级的加速.因此,基于动态时间规整算法的启发,提出了一种能够在O(w×|T|)的时间复杂度内挖掘出时间序列所有对称模式的方法.具体来说,给定对称模式长度约束,基于区间动态规划算法计算出对称子序列,进而依据贪心策略选择数量最多且不重叠的对称模式.此外,还研究了在时间序列数据流挖掘对称模式的算法,并根据窗口内数据的特征动态调节窗口大小,保证了对称模式数据的完整性.采用1个人工数据集、3个真实数据集在不同数据量下对上述方法进行实验.由实验结果可知,与其他对称模式挖掘方法相比,该方法在模式挖掘结果及时间开销方面均有较好的表现. 展开更多
关键词 时间序列 对称模式 距离度量 动态规划
在线阅读 下载PDF
网络攻击模型研究综述 被引量:22
11
作者 平国楼 叶晓俊 《信息安全研究》 2020年第12期1058-1067,共10页
随着信息技术的快速发展,网络攻击逐渐呈现多阶段、分布式和智能化的特性,单一的防火墙、入侵检测系统等传统网络防御措施不能很好地保护开放环境下的网络系统安全.网络攻击模型作为一种攻击者视角的攻击场景表示,能够综合描述复杂多变... 随着信息技术的快速发展,网络攻击逐渐呈现多阶段、分布式和智能化的特性,单一的防火墙、入侵检测系统等传统网络防御措施不能很好地保护开放环境下的网络系统安全.网络攻击模型作为一种攻击者视角的攻击场景表示,能够综合描述复杂多变环境下的网络攻击行为,是常用的网络攻击分析与应对工具之一.首先介绍主要网络攻击模型,包括传统树、图、网结构模型和现代杀伤链、ATT&CK、钻石模型等;然后再对网络攻击模型的分析与应用进行说明,其中以求解攻击指标为目的的分析过程主要包括概率框架、赋值方法和求解方法,基于生命周期的攻击模型应用则包括了攻击者视角和防守者视角的应用过程;最后总结了网络攻击模型及其分析应用的现有挑战与未来方向. 展开更多
关键词 网络系统安全 攻击行为 攻击模型 攻击模型分析 攻击模型应用
在线阅读 下载PDF
两两比较模型的Why-not问题解释及排序
12
作者 祁丹蕊 宋韶旭 王建民 《软件学报》 EI CSCD 北大核心 2019年第3期620-647,共28页
由于数据缺失,数据库用户通常无法获得查询结果中的预期答案.它被称为"Why-not问题",即"为什么预期的元组不会出现在结果中".现有的方法通过列举可能的元组值来解释Why-not问题.枚举所给出解释的数量往往太大,无法... 由于数据缺失,数据库用户通常无法获得查询结果中的预期答案.它被称为"Why-not问题",即"为什么预期的元组不会出现在结果中".现有的方法通过列举可能的元组值来解释Why-not问题.枚举所给出解释的数量往往太大,无法由用户探索.完整性约束,如函数依赖,被用来排除不合格的解释.然而,许多属性在简化后解释中仅仅表示为变量,用户可能仍然无法理解.由于数据稀疏性,许多不合理的解释也会被推荐给用户.提出通过研究元组间两两比较关系,从而对Why-not问题的解释进行排序的方法.首先,重新定义为什么Why-not问题解释的形式没有变量,以便于用户理解;其次,对元组中的相等/不相等关系进行表示,提出在{0,1}表示的元组对的基础上学习统计模型,从而解决直接在原始数据上学习所带来的稀疏性问题,许多模型可以被用来推断概率,包括统计分布、分类和回归;最后,根据推断的概率对解释进行评价和排序.实验结果证明:利用统计、分类和回归方法计算两两关系概率分布的方法,可以为用户寻找Why-not问题的解释并返回较为高质量的解释. 展开更多
关键词 数据质量 数据清洗 条件函数依赖 缺失结果解释 解释排序
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部