-
题名基于正则表达式的海量数据清洗系统
被引量:16
- 1
-
-
作者
常征
吕勇
-
机构
中国电子科技集团公司电子科学研究院
-
出处
《计算机应用》
CSCD
北大核心
2019年第10期2942-2947,共6页
-
基金
国家科技重大专项(2017ZX01013201)(2017ZX01013201)~~
-
文摘
针对目前主流的数据提取、变形、加载(ETL)工具和受限环境下一些应用的不足之处,结合受限应用场景下的特殊要求,提出一种基于正则表达式的海量数据清洗系统(REMCS)。REMCS首先针对超长错误数据问题、批量数据源文件融合问题、数据源文件自动分拣问题等典型的6个问题找到数据的特点,其次根据数据的特点设置合适的正则表达式和预处理算法,然后使用算法模型去除数据中的错误完成数据预处理工作。同时详细阐述了REMCS的系统逻辑结构、常见问题、对应的解决算法和代码实现方案。最后通过对兼容的数据源文件格式、能够处理的问题种类、问题处理时间、处理数据极限值等4个方面进行对比,从几组常见的数据处理问题的对比实验可知,相较于传统的ETL工具,REMCS支持csv格式、json格式、dump格式等典型的9种文件格式,能够处理全部的6种常见问题,处理时间更短,能够支持的数据极限值更大。实验结果验证了针对受限应用场景下常见的数据处理问题,REMCS具有很好的适用性和准确性。
-
关键词
正则表达式
数据清洗
大数据
提取、变形、加载工具
-
Keywords
regular expression
data cleaning
mass data
Extract Transform Load (ETL) tool
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-