2025-04-13-特征工程.md
为什么要做特征工程
数据和特征决定上限,模型和策略是逼近这个上线
特征工程
特征使用方案
- 要实现我们的目标需要哪些数据?—— 基于业务理解,尽可能找出对因变量有影响的所有自变量
- 获取难度
- 可用性评估
- 覆盖率
- 准确率
特征获取方案
- 如何获取这些特征?
- 如何存储?
特征处理
预处理
特征清洗
- 清洗异常样本
- 采样
- 数据不均衡
- 样本权重
单个特征
- 归一化
- 离散化
- Dummy Coding
- 缺失值
- 数据变换
- log
- 指数
- Box-Cox
多个特征
- 降维
- PCA
- LDA
- 特征选择
- Filter
- 思路:自变量和目标变量之间的关联
- 相关系数
- 卡方检验
- 信息增益、互信息
- Wrapper
- 思路:通过目标函数(AUC/MSE)来决定是否加入一个变量
- 迭代:产生特征子集,评价
- 完全搜索
- 启发式搜索
- 随机搜索
- GA
- SA
- Embedded
- 思路:学习器自身自动选择特征
- 正则化
- L1 — Lasso
- L2 — Ridge
- 决策树
- 熵、信息增益
- 深度学习
- Filter
- 衍生变量 — 对原始数据加工,生成有商业意义的变量
特征监控
- 特征有效性分析 — 特征重要性,权重
- 特征监控 — 监控重要特征 — 防止特征质量下降,影响模型效果
