中国战略性新兴产业研究与发展:智慧工业
上QQ阅读APP看书,第一时间看更新

3.1.2 数据清洗

数据清洗也称为数据清理或数据洗涤,是为了提高数据质量而将数据中的错误记录识别出来并剔除。数据清洗经常与数据仓库、数据挖掘和数据整合联系在一起学习。这些领域近些年在数据库研究团体中得到了非常大的关注。当需要集成多数据源的数据时,比如在数据仓库、联合数据库系统或者全球网络信息系统中,数据清洗变得更加有意义。这是因为数据源经常以不同的形式包含着冗余的数据,且难以被察觉。为了获取准确、一致的数据,合并不同形式的数据和消除重复数据变得非常有必要。

数据清洗根据不同的任务要求与环境特点,执行的过程也不同,根据对一般清洗工具的总结,数据清洗的一般过程可分为四个环节:

(1)分析数据特点 解决数据质量问题首先要从分析产生数据质量的原因、分析数据源特点的根本出发。这个环节的主要任务是归纳和总结数据特点,为清洗规则的制定提供依据。除了可以利用专业知识外,也可以通过人工分析或者编制数据分析程序来分析样本数据。

(2)制定清洗规则 在对数据源特点进行归纳总结以后,结合已有的清洗算法,制定相应的清洗规则。一般来说,清洗规则主要有不一致数据的检测和处理、空值的检测和处理、相似或重复记录的检测和处理以及非法值的检测和处理四种。

(3)执行清洗规则 数据清洗中最重要的一步就是执行清洗规则。清洗规则的执行一般有先后顺序。由于数据清洗工作的领域相关性、环境依赖性特别强,很难形成统一的通用标准,且数据质量问题零散、复杂难以归纳,所以需要根据不同的问题制定不同的清洗规则。

(4)检验清洗效果 这是清洗工作检阅性的一步。根据生成的清洗报告,查看数据清洗情况,发现清洗过程中存在的问题,对程序不能处理的问题进行人工处理,评估清洗效果,对不满足清洗要求的规则和算法进行改进和优化。然后根据需要,再次进行清洗,直到满足要求。

数据清洗是一个需要多次迭代、重复进行的处理过程,只有经过不断的比较、完善、改进,才能得到理想的处理结果。