数据分析完成流程

数据分析完整流程

1数据清洗与格式化

### 加载并检查数据 ### 数据类型和缺失值 1.2.1 将数据转换为正确的类型 ### 1.3 处理缺失值

2. 探索性数据分析

  • 2.1 单变量图
  • 2.2 去除异常值
  • 2.3 寻找关系
  • 2.4 特征与目标之间的相关性
  • 2.5 双变量图(Two-Variable Plots)
    • 2.5.1 Pairs Plot

      3. 特征工程和特征选择

    • 3.1 特征工程
    • 3.2 特征选择(去除共线特征)
    • 3.3 划分训练集和测试集
    • 3.4 建立Baseline
    • 小结

      4. 基于性能指标比较几种机器学习模型

    • 4.1 输入缺失值
    • 4.2 特征缩放
    • 4.3 需要评估的模型

      5. 对最佳模型执行超参数调整

    • 5.1 超参数
    • 5.2 使用随机搜索和交叉验证进行超参数调整

      6. 在测试集上评估最佳模型

      7. 解释模型结果

    • 7.1 特征重要性
    • 7.2 使用特征重要性进行特征选择
    • 7.3 本地可解释的与模型无关的解释
    • 7.4 检查单个决策树

      8. 得出结论

    • 8.1 得出结论
    • 记录发现

本文是一个完整的监督学习的机器学习流程,包含:

数据清理,探索性数据分析,特征工程和选择等常见问题的解决办法 随机搜索,网格搜索,交叉验证等方法寻找最优超参数 可视化决策树 对完整的机器学习项目流程建立一个宏观的了解 代码非常完整,可以在平时的机器学习项目中拿来用,只需要改少量代码即可。