《深入浅出数据分析》笔记
数据分析不是一门简单的手艺,或许它得出的结果很简单,但它的思维过程并不简单。
在简单的阅读深入浅出数据分析后,我总结它的完整过程大致为:确定问题——获取数据(包括数据挖掘、数据清洗)——分解问题与数据——得到与问题有关的结论——得出明晰的决策。
在一开始确定问题的时候就要明白,你是在进行探索性质的数据分析,还是在有明确目的的条件下进行数据分析,如果是前者,你可以不去想自己有什么问题需要解决,可以直接在数据中遨游,找到可以进行探索、评估的问题,然后去得出结论;而如果你想进行有决策性质的数据分析,那你需要正真的明确、分解问题,通常有以下方式:
1.从客户对问题的理解中提取有用的信息,注意错误的信息。
2.对问题不同层次的分解,回答小问题,再回答大问题。
在你无法证明自己结论的正确性的时候,在场外做实验进行检验是可行的,通过抽样、对比实验,来得到数据,以此证明你结论的正确/错误。
有一类问题叫最优化问题,在这类问题中,通常用线性规划的方法可以解决。
数据图形化(数据可视化)的重要标准:图形体现数据,能正确体现不同变量的比较,让图形多元化。
假设检验:为了判断大量信息的正确性、有效性,我们通过证伪法讲信息整合到我们的分析模型中。观察数据变量之间的正负相关性可以构建现实的因果网络。假设检验的核心是证伪:通过诊断性分析,讲每个数据变量对假设的作用(支持、反对)的大小量化,得出哪个假设最强。
概率问题:使用贝叶斯统计。
在有的时候,直觉作为评估的重要部分,通过主观概率,可以将它们整合到分析模型中,如果出现了新的信息,用贝叶斯规则来整合新的信息是一种合适的处理方式。
启发法:用经验做出决策的方式。
直方图:体现每组数据的发生频率。用数据的子集创建直方图,可以体现不同类型数据的分布。
散点图(回归):对于线性相关的特点的数据很有用。
误差:合理误差,内插法与外插法。注意小心观察分析残差,利用均方根误差(残差)来定量指定误差。通过分割数据可以得到不同的模型来应对不同的要求。但是要注意不要过度分割,失去分析的预测性。