-
题名基于聚类的连续型数据缺失值充填方法
被引量:12
- 1
-
-
作者
李国和
杨绍伟
吴卫江
郑艺峰
-
机构
中国石油大学(北京)石油数据挖掘北京市重点实验室
中国石油大学(北京)地球物理与信息工程学院
闽南师范大学数据科学与智能应用福建省高等学校重点实验室
闽南师范大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第9期32-39,共8页
-
基金
国家自然科学基金(61701213)
国家油气重点专项子课题(G-5800-08-ZS-WX)
+1 种基金
中国石油大学(北京)克拉玛依校区科研启动基金(RCYJ2016B-03-001)
福建省教育厅中青年基金(JA15300)
-
文摘
在大数据应用中,多数建模方法是在完备数据集基础上进行的,但在数据采集过程或存储过程中容易出现数据缺失的现象,导致无法建模。为此,提出一种基于聚类的递归充填方法。使用同类簇的均值对不完备数据进行预填充,形成初始完备数据集,针对得到的完整数据进行聚类,并运用同类簇的均值修正初始充填值。根据充填效果误差判定充填稳定性,并进行多次递归聚类修正充填值,直到前后两次充填较为稳定或迭代次数超过阈值时停止迭代。实验结果表明,与均值充填、K最近邻充填、聚类充填及粗糙集不完备数据分析等方法相比,该方法能够进行更为精准的充填,使得最终充填更加接近真实数据。
-
关键词
缺失值
预充填
聚类
递归充填
平方误差
-
Keywords
missing value
prefilling
clustering
recursive filling
square error
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于密度和半监督学习的数据修复与聚类
被引量:1
- 2
-
-
作者
张倩倩
李国和
郑艺峰
-
机构
中国石油大学(北京)石油数据挖掘北京市重点实验室
中国石油大学(北京)信息科学与工程学院
石大兆信数字身份管理与物联网技术研究院
闽南师范大学数据科学与智能应用福建省高等学校重点实验室
闽南师范大学计算机学院
-
出处
《计算机工程与设计》
北大核心
2020年第3期676-681,共6页
-
基金
国家自然科学基金项目(61701213)
油气国家重点专项子课题基金项目(G-5800-08-ZS-WX)
+1 种基金
中国石油大学(北京)克拉玛依校区科研启动基金项目(RCYJ2016B-03-001)
福建省教育厅中青年基金项目(JA15300)。
-
文摘
针对现有数据修复算法需要数据集的完整性依赖等函数、不适用于简单数据集、不能充分利用背景知识等问题,提出一种基于密度和半监督学习的修复和聚类算法。遵循数据修复的最小改变原则,利用样本集自身的密度信息和背景知识形成临时聚类簇;利用成对约束将临时聚类簇进行分割或者合并,形成最终聚类簇,在聚类的同时完成不精确数据的修复。实验结果表明,该算法适用于具有简单模式的样本集,是对现有基于完整性约束数据修复算法的扩展,提高了数据修复正确率和聚类精度。
-
关键词
数据质量
数据清理
数据修复
成对约束
密度聚类
-
Keywords
data quality
data cleaning
data repairing
pair constraints
density-based clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名粒计算思维下的BP神经网络在金融趋势预测中的应用
被引量:9
- 3
-
-
作者
沈泽君
杨文元
-
机构
闽南师范大学福建省粒计算及其应用重点实验室
闽南师范大学数据科学与智能应用福建省高等学校重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2019年第3期527-532,共6页
-
基金
国家自然科学基金青年项目(61703196)资助
福建省自然科学基金项目(2018J01549)资助
-
文摘
BP(Back Propagation)神经网络在金融趋势预测上得到了广泛的应用,其通过反向传播误差来调整模型的权重与偏值,能够较强的适应金融的走向趋势.但是由于金融趋势的周期性变化多端,不同周期下对预测值的影响不一,传统的BP神经网络在金融趋势预测上存在一定的局限性.本文充分考虑金融趋势周期粒度这一特性,提出了基于粒计算思维的BP神经网络(Back Propagation on Granular Computing,BPGC). BPGC算法首先对数据集进行不同粒度划分、构造粒度矩阵,然后根据粒度矩阵进行BP训练得出各粒度下的权值,最后对各粒度的预测结果进行加权平均,得出预测结果.在浦发银行股票收盘价数据集上进行实验,与传统的BP神经网络进行比对,实验结果验证了BPGC算法的有效性.
-
关键词
粒计算
BP神经网络
粒度矩阵
金融趋势预测
-
Keywords
granular computing
back propagation
granularity matrix
financial trend prediction
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
F832.51
[经济管理—金融学]
-
-
题名基于限制性随机游走局部谱近似社区发现算法
被引量:3
- 4
-
-
作者
吴卫江
桑睿彤
郑艺峰
-
机构
中国石油大学(北京)石油数据挖掘北京市重点实验室
中国石油大学(北京)信息科学与信息工程学院
闽南师范大学数据科学与智能应用福建省高等学校重点实验室
闽南师范大学计算机学院
-
出处
《计算机工程与设计》
北大核心
2021年第9期2472-2477,共6页
-
基金
国家自然科学基金项目(61701213)
福建省自然科学基金项目(2019J01748)
福建省教育厅中青年基金项目(JAT190392)。
-
文摘
针对大型网络中社区发现优化方法的效率问题,提出一种局部社区发现方法(LRW-LSA),从少量种子节点中识别本地社区的所有潜在社区成员。采用限制性随机游走进行采样处理,从种子节点出发得到一个相对较小的子图;利用种子的归一化指示向量对子图进行Lanczos迭代,得到相关节点与目标社区的隶属概率用以恢复出目标社区。在不同领域的真实数据集和合成数据集上进行实验,结果表明,LRW-LSA优于现有的社区发现方法。
-
关键词
局部社区发现
限制性随机游走
Lanczos迭代
种子节点
目标社区
-
Keywords
local community detection
limited random walk
Lanczos method
seed nodes
target community
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-