CC BY 4.0 (除特别声明或转载文章外)
如果这篇博客帮助到你,可以请我喝一杯咖啡~
数据分析完整流程
1数据清洗与格式化
### 加载并检查数据 ### 数据类型和缺失值 1.2.1 将数据转换为正确的类型 ### 1.3 处理缺失值
2. 探索性数据分析
- 2.1 单变量图
- 2.2 去除异常值
- 2.3 寻找关系
- 2.4 特征与目标之间的相关性
- 2.5 双变量图(Two-Variable Plots)
- 2.5.1 Pairs Plot
3. 特征工程和特征选择
- 3.1 特征工程
- 3.2 特征选择(去除共线特征)
- 3.3 划分训练集和测试集
- 3.4 建立Baseline
- 小结
4. 基于性能指标比较几种机器学习模型
- 4.1 输入缺失值
- 4.2 特征缩放
- 4.3 需要评估的模型
5. 对最佳模型执行超参数调整
- 5.1 超参数
- 5.2 使用随机搜索和交叉验证进行超参数调整
6. 在测试集上评估最佳模型
7. 解释模型结果
- 7.1 特征重要性
- 7.2 使用特征重要性进行特征选择
- 7.3 本地可解释的与模型无关的解释
- 7.4 检查单个决策树
8. 得出结论
- 8.1 得出结论
- 记录发现
- 2.5.1 Pairs Plot
本文是一个完整的监督学习的机器学习流程,包含:
数据清理,探索性数据分析,特征工程和选择等常见问题的解决办法 随机搜索,网格搜索,交叉验证等方法寻找最优超参数 可视化决策树 对完整的机器学习项目流程建立一个宏观的了解 代码非常完整,可以在平时的机器学习项目中拿来用,只需要改少量代码即可。