Datawhale-二手车预测-Task02 数据分析
一、EDA是什么?为什么要做EDA?EDA的基本步骤
Exploratory Data Analysis(EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
传统的统计分析方法常常先假设数据符合一种统计模型,然后依据数据样本来估计模型的一些参数及统计量,以此了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型分布,这导致数据分析结果不理想。EDA则是一种更加贴合实际情况的分析方法,它强调让数据自身“说话”,通过EDA我们可以最真实、直接的观察到数据的结构及特征。
探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别
- 传统的统计分析通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析。
- 探索性数据分析方法重视数据的真实分布,强调数据的可视化,使分析者能一目了然看出数据中隐含的规律,从而得到启发,以此帮助分析者找到适合数据的模型。
- “探索性”是指分析者对有待解决的问题的理解会随着研究的深入不断变化。
EDA出现之后,数据分析的过程就分为两步:探索阶段和验证阶段。探索阶段侧重于发现数据中包含的模式或模型,验证阶段侧重于评估所发现的模式或模型,很多机器学习算法(分为训练和测试两步)都是遵循这种思想。
在数据分析工作中,利用统计学,可以更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构确定数据分析的方法,来获取更多的信息。
探索性数据分析通常有以下几个步骤:
- 检查数据:是否有缺失值 是否有异常值 是否有重复值 数据分布是否均衡 是否需要抽样 变量是否需要转换 是否需要增加新的特征
- 使用描述统计量和图表对数据进行描述
- 连续变量:常见的统计量有:平均值、中位数、众数、最小值、最大值、四分位数、标准差等。使用频数分布表、直方图、箱线图等。
- 无序性离散变量:各个变量出现的频数和占比;使用频数分布表、柱形图、条形图、茎叶图、饼图等;
- 有序性离散变量:各个变量出现的频数和占比;使用频数分布表,堆积柱形图,堆积条形图等
3. 考察变量之间的关系:离散变量 连续变量
4. 进行数据处理
根据EDA我们可以得出以下结论:
- 变量是否需要筛选、替换和清洗;
- 变量是否需要转换;
- 变量之间是否需要交叉;
- 变量是否需要采样;
二、实践过程记录
第一步,不可或缺的导入五大包:NumPy、Pandas、Matplotlib、Seaborn,Warnings
特别主要的就是Seaborn,这个库目前可视化的能力已经超过之前对Python的理解,有很多人说R可视化效果很好,但是我觉得这个可视化一点都不差。
第二步,导入数据
第三步,探索变量
- name - 汽车编码
- regDate - 汽车注册时间
- model - 车型编码
- brand - 品牌
- bodyType - 车身类型
- fuelType - 燃油类型
- gearbox - 变速箱
- power - 汽车功率
- kilometer - 汽车行驶公里
- notRepairedDamage - 汽车有尚未修复的损坏
- regionCode - 看车地区编码
- seller - 销售方
- offerType - 报价类型
- creatDate - 广告发布时间
- price - 汽车价格
- v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14' 【匿名特征,包含v0-14在内15个匿名特征】
第四步,简单的描述统计(后面对数据描述做详细的处理),某一列的数据的类别数据,缺失值的简单统计(后面会对缺失值详细处理)
第五步,数据切分:横截面 时间序列 面板数据 地理空间
第六步,数据质量评估
- 评估缺失值数据在所有数据字段中的普遍性,评估其丢失是随机还是系统的,并在缺少数据是确定模式;
- 标签包含给定字段丢失数据的默认值;
- 确定质量评估抽样策略和初始EDA;
- 时间数据类型,保证格式的一致性和粒度的数据,并执行对数据的所有日期的检查;
- 在多个字段捕捉相同或者相似的信息的情况下,了解它们之间的关系并评估最有效的字段使用;
- 查看每个字段数据类型
- 对于离散值类型,确保数据格式一致,评估不同值和唯一百分比的数据,并对答案的类型进行正确检查
- 连续数据类型,进行描述性统计,并对值进行检查
© 本文版权归 Methycobal 所有,任何形式转载请联系作者。
© 了解版权计划