本文共 1194 字,大约阅读时间需要 3 分钟。
当收集到初步的样本数据集后,需要对数据从数据质量分析和数据特征分析两个方面进行探索分析,其中,数据质量分析要求我们先检测数据的是否存在缺失值和异常值;而数据特征分析要求我们在数据挖掘建模前,通过频率分布分析,对比分析,帕斯托分析,周期性分析,相关性分析等分析方法,对采集的样本数据的特征规律进行分析,以了解数据的规律和趋势,为数据挖掘等后续环节提供支持。
一般不符合要求,不能直接进行分析的数据称之为脏数据,而数据质量分析主要是就是检测原始数据中是否有脏数据,一般脏数据包括以下内容:
(1) 缺失值分析
数据缺失一般是记录缺失和记录中的某个字段缺失,两者都会造成分析数据结构不准确。从总体上讲,一般分为3中处理方法,分别是删除,填充,以及不处理。 (2) 异常值分析 数据异常是指收集数据的个别数据录入错误和不合常理的,其明显偏离其余的观测数据。 其中分一下三个方面进行分析箱形图模型
指标如下 QL 下四分位数,表示全部观测值有四分之一数据比它小 QU 上四分位数,表示全部观测值有四分之一数据比它大 IQR 四分位数间距,IQR = QU-QL 异常值定义为:小于QL-1,.5IQR 或者 大于QU+1.5IQR(3) 一致性分析
数据一致性是指数据的矛盾性和不相容性,不一致一般发生于数据集成过程中,可能是多数据源集成,对于重复放置的数据未能够进行一致性更新造成的。例如,两张表都存放用户的TEL,当用户更新TEL时候,一张表更新,而另外一张没有更新,则导致了不一致的数据。(1) 分布分析
分布分析解释数据的分布特征和分布类型。数据一般分为两种类别,定量数据与定性数据,定量数据一般是用现象的数值来表示现象的数据特征,而定性数据则是根据分析者的经验直觉等,对分析数据的品质特征,常进行的是分类分布。所以定量数据的分布分析常使用下列步骤进行。而定性数据分布分析常使用的是饼图和条形图。
(2) 对比分析
对比分析是指将两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢和各种关系是否协调。(曲线的对比图)(3) 周期性分析
探索某个变量是否随着时间的变化而呈现出某种周期变化趋势。时间尺度可以分为年度、季度、月度、周度、日度、小时周期性趋势。