-
题名面向复杂数据审计需求的数据血缘构建方法
被引量:2
- 1
-
-
作者
潘晓华
金泳
高扬华
朱心洲
沈诗婧
-
机构
浙江大学软件学院
浙江中烟工业有限责任公司信息中心
浙江大学滨江研究院国产信创技术研究中心
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第1期76-82,共7页
-
基金
浙江省科技计划资助项目(2023C01213)
“尖兵”“领雁”研发攻关计划资助项目。
-
文摘
针对复杂数据审计需求,现有方法是通过查询分析数据库中每条执行语句信息,数据审计效率低下;目前也有一些手段是使用数据血缘工具进行快速查找,但是这种方式需要侵入系统获取源码,容易造成数据泄露或者被恶意窜改。针对这些问题,提出一种面向复杂数据审计需求的数据血缘构建方法,融合日志预处理、数据关系解析、数据对齐等关键技术,通过解析系统运行日志信息以非侵入的方式实现数据血缘图谱的构建,并面向烟草物流出入库环节形成数据审计工具。以烟草物流中13 796个批次货物在流转过程中所对应的155 728条事务日志为测试数据集,从完整性、构建成本、数据审计效率三个方面进行对比实验。结果表明,提出的方法能够在10 s内完成查询任务,占用内存为1.23 MB/百条,明显少于现有方法。相比现有方法,提出的方法可在数据级粒度上进行完整准确的数据血缘构建,且使用基于该方法所构建的数据血缘进行数据审计能够大幅度提升卷烟物流过程中的数据审计效率。
-
关键词
数据血缘
非侵入式
数据审计
卷烟物流
自动化作业
-
Keywords
data lineage
non-invasive
data audit
cigarette logistics
automated job
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名采用数据血缘的数据热度预测方法
被引量:3
- 2
-
-
作者
金泳
高扬华
潘晓华
沈诗婧
朱心洲
-
机构
浙江中烟工业有限责任公司信息中心
浙江大学滨江研究院
浙江大学软件学院
-
出处
《计算机应用》
CSCD
北大核心
2023年第S01期119-125,共7页
-
基金
浙江大学-浙江中烟联合实验室科技项目ZJZY2021E006(ZD-ZJZY20211001)
中国烟草总公司重点研发项目(110202102030)
浙江中烟工业有限责任公司科技项目(ZJZY2021E006)
-
文摘
数据之间存在相互引用关系,在进行数据开发时,通常存在一些具有高热度的数据,此类数据被其他数据大量引用,它们的缺陷往往会给整个大数据平台产出的数据结果带来极大影响。因此,对高热度数据进行预测并予以相应保护至关重要。面向基于数据热度的数据分级治理需求,提出一种采用数据血缘的数据热度预测方法。首先通过构建数据系统中的数据血缘捕获数据节点之间的引用关系;然后,提取数据血缘的时间和结构特征,并采用图卷积网络(GCN)进行数据血缘图特征的学习;最后,提出一种数据血缘传播趋势分层读出的方法读出图特征,对数据热度进行预测。在浙江中烟营销系统数据集ZJZY-SL和高能物理现象学相关论文引文数据集(HEP-PH)上的实验结果表明,相较于DeepCCP等方法,所提方法的识别准确率分别提升7.64、2.88个百分点,平均F1分别提升4.7、4.34个百分点。所提方法能充分挖掘数据在被引用早期的数据血缘特征,并预测数据节点未来的热度。
-
关键词
数据血缘
图卷积网络
数据热度
传播趋势
数据治理
-
Keywords
data lineage
Graph Convolutional Network(GCN)
data citation popularity
propagation trend
data governance
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于元数据映射关系的结构化数据血缘分析方法
被引量:9
- 3
-
-
作者
唐雪飞
樊治强
-
机构
电子科技大学信息与软件工程学院
-
出处
《现代电子技术》
2022年第16期67-70,共4页
-
基金
四川省科技计划项目(2020YFG0304)
四川省科技计划项目(2020YFG0305)。
-
文摘
现有的结构化数据的数据血缘分析方法以改造数据库查询语言的执行过程为主,应用局限性较强,对此文中提出一种基于元数据映射关系的结构化数据血缘分析方法。该方法对业务表和字段的元数据信息进行统一维护,支持通过SQL解析、手动配置等手段构造并存储表和字段的元数据映射关系,以此记录表和字段的数据流向。然后,给出针对特定表和特定字段的血缘分析算法,算法分别基于深度优先搜索和广度优先搜索的思想,对存储的元数据映射关系进行分析,得到对输入表和输入字段有贡献的上游表和上游字段。再以有向图形式展示的分析结果直观地表达结构化数据的起源信息。该方法可以帮助数据分析人员快速地定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。
-
关键词
结构化数据
数据血缘
元数据映射关系
数据流向
血缘分析
数据分析
-
Keywords
structured data
data kinship
metadata mapping relationship
data flow direction
kinship analysis
data analysis
-
分类号
TN919-34
[电子电信—通信与信息系统]
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向烟草行业研发应用的大数据分析平台
被引量:5
- 4
-
-
作者
张海涛
薛翔
-
机构
云南中烟工业有限责任公司
大连达硕信息技术有限公司
-
出处
《计算机应用与软件》
北大核心
2021年第6期18-22,93,共6页
-
基金
云南中烟工业有限责任公司项目(2016XX01)。
-
文摘
烟草研发体系具有业务广泛、数据庞杂等特点,影响大数据分析技术在烟草研发领域的推广应用。构建面向烟草行业研发应用的大数据分析平台,遵循全局数据应用的整合思维,封装多源异构的烟草研发数据的采集与存储过程;采用应用场景驱动与数据分层融合策略,完成数据主题化规范化管理;设计并开发数据分析过程可视化编排器,简化数据资产价值挖掘过程。该平台能够让“非数据专家用户”更专注于烟草研发业务,有利于推动大数据分析技术在烟草研发体系中的应用。
-
关键词
烟草研发体系
数据自动汇聚
数据血缘分析
数据主题分析
可视化编排器
-
Keywords
Tobacco system for research and development
Data auto-collection and storage
Data consanguinity analysis
Data topic analysis
Visual editor
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-