Sam Lin

Sam Lin

2025-04-13-特征工程.md

为什么要做特征工程

数据和特征决定上限,模型和策略是逼近这个上线

特征工程

特征使用方案

  • 要实现我们的目标需要哪些数据?—— 基于业务理解,尽可能找出对因变量有影响的所有自变量
    • 获取难度
    • 可用性评估
      • 覆盖率
      • 准确率

特征获取方案

  • 如何获取这些特征?
  • 如何存储?

特征处理

预处理

特征清洗

  • 清洗异常样本
  • 采样
    • 数据不均衡
    • 样本权重

单个特征

  • 归一化
  • 离散化
  • Dummy Coding
  • 缺失值
  • 数据变换
    • log
    • 指数
    • Box-Cox

多个特征

  • 降维
    • PCA
    • LDA
  • 特征选择
    • Filter
      • 思路:自变量和目标变量之间的关联
      • 相关系数
      • 卡方检验
      • 信息增益、互信息
    • Wrapper
      • 思路:通过目标函数(AUC/MSE)来决定是否加入一个变量
      • 迭代:产生特征子集,评价
        • 完全搜索
        • 启发式搜索
        • 随机搜索
          • GA
          • SA
    • Embedded
      • 思路:学习器自身自动选择特征
      • 正则化
        • L1 — Lasso
        • L2 — Ridge
      • 决策树
        • 熵、信息增益
      • 深度学习
  • 衍生变量 — 对原始数据加工,生成有商业意义的变量

特征监控

  • 特征有效性分析 — 特征重要性,权重
  • 特征监控 — 监控重要特征 — 防止特征质量下降,影响模型效果