博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《python数据分析读书笔记》--- 数据探索(一)
阅读量:4230 次
发布时间:2019-05-26

本文共 1194 字,大约阅读时间需要 3 分钟。

前言

当收集到初步的样本数据集后,需要对数据从数据质量分析和数据特征分析两个方面进行探索分析,其中,数据质量分析要求我们先检测数据的是否存在缺失值和异常值;而数据特征分析要求我们在数据挖掘建模前,通过频率分布分析,对比分析,帕斯托分析,周期性分析,相关性分析等分析方法,对采集的样本数据的特征规律进行分析,以了解数据的规律和趋势,为数据挖掘等后续环节提供支持。

数据质量分析

一般不符合要求,不能直接进行分析的数据称之为脏数据,而数据质量分析主要是就是检测原始数据中是否有脏数据,一般脏数据包括以下内容:

  • 缺失值
  • 异常值
  • 不一致值
  • 重复数据和含有特殊符号

(1) 缺失值分析

数据缺失一般是记录缺失和记录中的某个字段缺失,两者都会造成分析数据结构不准确。从总体上讲,一般分为3中处理方法,分别是删除,填充,以及不处理。
(2) 异常值分析
数据异常是指收集数据的个别数据录入错误和不合常理的,其明显偏离其余的观测数据。
其中分一下三个方面进行分析

  • 简单统计分析
    统计量最大值和最小值,判断是否超过合理范围。
  • 3倍标准差原则
    对于服从正态分布的数据,异常值定义为测试值中与平均值相差3倍标 准差的值,而对于非正态分布,可设定为远离平均值的多少倍标准差来选取异常值。
  • 箱形图模型

    指标如下
    QL 下四分位数,表示全部观测值有四分之一数据比它小
    QU 上四分位数,表示全部观测值有四分之一数据比它大
    IQR 四分位数间距,IQR = QU-QL
    异常值定义为:小于QL-1,.5IQR 或者 大于QU+1.5IQR

    这里写图片描述

(3) 一致性分析

数据一致性是指数据的矛盾性和不相容性,不一致一般发生于数据集成过程中,可能是多数据源集成,对于重复放置的数据未能够进行一致性更新造成的。例如,两张表都存放用户的TEL,当用户更新TEL时候,一张表更新,而另外一张没有更新,则导致了不一致的数据。

数据特征分析

(1) 分布分析

分布分析解释数据的分布特征和分布类型。数据一般分为两种类别,定量数据与定性数据,定量数据一般是用现象的数值来表示现象的数据特征,而定性数据则是根据分析者的经验直觉等,对分析数据的品质特征,常进行的是分类分布。所以定量数据的分布分析常使用下列步骤进行。

  • a. 求极差。 (极大值减去极小值)
  • b. 决定组距和组数。(组数=极差/组距)
  • c. 决定分点。
  • d.列出频率分布表。(组段/组中值/频数/频率/累计频率)
  • e. 绘制频率分布直方图。

而定性数据分布分析常使用的是饼图和条形图。

(2) 对比分析

对比分析是指将两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢和各种关系是否协调。(曲线的对比图)

(3) 周期性分析

探索某个变量是否随着时间的变化而呈现出某种周期变化趋势。时间尺度可以分为年度、季度、月度、周度、日度、小时周期性趋势。

你可能感兴趣的文章
T-SQL中的聚合函数中的SUM()函数与AVG函数()
查看>>
T-SQL中的聚合函数(二)
查看>>
分组查询
查看>>
2021-06-04
查看>>
最长无重复子数组
查看>>
Dual-Primal Graph Convolutional Networks 对偶-原始图卷积神经网络
查看>>
GoGNN: Graph of Graphs Neural Network for Predicting Structured Entity Interactions
查看>>
Estimating Node Importance in Knowledge Graphs Using Graph Neural Networks
查看>>
DiffPool: Hierarchical Graph Representation Learning with Differentiable Pooling
查看>>
MuchGCN:Multi-Channel Graph Convolutional Networks
查看>>
kernel_size为1的卷积核与全连接层的关系
查看>>
STRATEGIES FOR PRE-TRAINING GRAPH NEURAL NETWORKS
查看>>
PAT_A 1010. Radix (25)
查看>>
PAT_A 1005. Spell It Right (20)
查看>>
PAT_A 1012. The Best Rank (25)
查看>>
PAT_A 1013. Battle Over Cities (25)
查看>>
PAT_A 1015. Reversible Primes (20)
查看>>
SetWindowLong函数介绍
查看>>
百度云cdn,bos设置
查看>>
[chrome]好用的chrome Json 格式化插件
查看>>