期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
不同场景下的文本长度异常数据清洗系统设计
1
作者 黄怡 王峰 +2 位作者 胡志亮 胡鹏 胡传胜 《电子设计工程》 2024年第4期94-97,102,共5页
从混合数据样本中筛选文本长度异常数据时,文本信息处理所需耗时较长,为此设计不同场景下的文本长度异常数据清洗系统。根据场景信息定义表达式,获取元数据样本。根据异常值计算结果,判定文本数据长度。按照总线协议作用原则,调节数据... 从混合数据样本中筛选文本长度异常数据时,文本信息处理所需耗时较长,为此设计不同场景下的文本长度异常数据清洗系统。根据场景信息定义表达式,获取元数据样本。根据异常值计算结果,判定文本数据长度。按照总线协议作用原则,调节数据清洗组件的连接状态,完成数据清洗总线的设计,实现不同场景下文本长度异常数据清洗系统的搭建。对比实验结果表明,筛选信息文本时,该清洗系统可将异常数据与常规数据样本之间的文本长度差提升至3.76×10~7bit,节省了2.7 ms的文本信息处理耗时。 展开更多
关键词 文本长度 异常数据清洗 场景信息 数据 异常 总线协议
在线阅读 下载PDF
一种基于深度学习的异常数据清洗算法 被引量:24
2
作者 匡俊搴 赵畅 +2 位作者 杨柳 王海峰 钱骅 《电子与信息学报》 EI CSCD 北大核心 2022年第2期507-513,共7页
在物联网(IoT)中采用合适的异常数据清洗算法能极大地提升数据质量。许多研究人员采用统计学方法或分类聚类等方法对时-空相关数据进行清洗。但这些方法需要额外的先验知识,会给汇聚节点带来额外的计算开销。该文根据低秩-稀疏矩阵分解... 在物联网(IoT)中采用合适的异常数据清洗算法能极大地提升数据质量。许多研究人员采用统计学方法或分类聚类等方法对时-空相关数据进行清洗。但这些方法需要额外的先验知识,会给汇聚节点带来额外的计算开销。该文根据低秩-稀疏矩阵分解模型,提出一种基于深度神经网络的快速异常数据清洗算法,来解决物联网中时-空相关数据的清洗问题。结合感知数据的时-空相关性和异常值的稀疏性,将异常数据清洗问题转换为优化问题,并采用迭代阈值收缩算法(ISTA)求解该优化问题,再将ISTA算法展开成一个固定长度的深度神经网络。实际数据集的实验结果表明,该方法能够自动更新阈值,比传统的ISTA算法收敛速度更快,精度更高。 展开更多
关键词 物联网 异常数据清洗 迭代阈值收缩算法 展开 深度神经网络
在线阅读 下载PDF
基于QM-DBSCAN的风力机数据清洗方法 被引量:9
3
作者 郑玉巧 刘玉涵 +2 位作者 何正文 董博 魏剑峰 《兰州理工大学学报》 CAS 北大核心 2021年第6期50-55,共6页
针对风电场风速-功率异常数据难以清洗的问题,提出一种基于QM-DBSCAN算法的风电场数据清洗方法.首先选取最能代表风力机运行状况的风速-功率数据作为研究对象,根据异常数据的分布特征进行分类;然后分别利用四分位法、标准DBSCAN算法及基... 针对风电场风速-功率异常数据难以清洗的问题,提出一种基于QM-DBSCAN算法的风电场数据清洗方法.首先选取最能代表风力机运行状况的风速-功率数据作为研究对象,根据异常数据的分布特征进行分类;然后分别利用四分位法、标准DBSCAN算法及基于QM-DBSCAN方法识别和剔除异常数;最后通过spearman系数进一步验证所提方法的有效性.研究结果表明:QM-DBSCAN方法的剔除效果最好,较四分位法和标准DBSCAN法的spearman系数分别提高0.0035和0.0047. 展开更多
关键词 风力机 异常数据清洗 四分位法 DBSCAN QM-DBSCAN
在线阅读 下载PDF
Efficient and Effective 4D Trajectory Data Cleansing 被引量:2
4
作者 TAN Xin SUN Xiaoqian +1 位作者 ZHANG Chunxiao WANDELT Sebastian 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2020年第2期288-299,共12页
As the rapid development of aviation industry and newly emerging crowd-sourcing projects such as Flightradar24 and FlightAware,large amount of air traffic data,particularly four-dimension(4D)trajectory data,have becom... As the rapid development of aviation industry and newly emerging crowd-sourcing projects such as Flightradar24 and FlightAware,large amount of air traffic data,particularly four-dimension(4D)trajectory data,have become available for the public.In order to guarantee the accuracy and reliability of results,data cleansing is the first step in analyzing 4D trajectory data,including error identification and mitigation.Data cleansing techniques for the 4D trajectory data are investigated.Back propagation(BP)neural network algorithm is applied to repair errors.Newton interpolation method is used to obtain even-spaced trajectory samples over a uniform distribution of each flight’s 4D trajectory data.Furthermore,a new method is proposed to compress data while maintaining the intrinsic characteristics of the trajectories.Density-based spatial clustering of applications with noise(DBSCAN)is applied to identify remaining outliers of sample points.Experiments are performed on a data set of one-day 4D trajectory data over Europe.The results show that the proposed method can achieve more efficient and effective results than the existing approaches.The work contributes to the first step of data preprocessing and lays foundation for further downstream 4D trajectory analysis. 展开更多
关键词 4D trajectories data cleansing outlier detection REPAIR
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部