2.2 数据清理【stanford-cs329p】


Data Errors

  • 数据经常存在错误 - 与ground truth不一致
    • 比如缺少、错误或一些极端值
  • 好的ML模型对错误有容忍
    • 训练经常是可以收敛,只是精度会降低
  • 部署模型上线可能影响到新收集数据的质量

Types of Data Errors

  • Outliters:数据值与正常分布不一致
  • Rule violations:规则冲突比如“Not NULL”等
  • Pattern violations:匹配规则错误,比如美元变成人民币,拼写错误等

Rule-based Detection

  • Functional dependencies:x->y 表示一个x决定一个y
  • Denial constraaints:制定更灵活的第一级逻辑规则,比如手机号非空等

Pattern-based Detection

  • Syntactic patterns:小写转大写
  • Semantic patterns:知识图谱

Summary

  • 数据错误的类型
  • 查找错误修正:模型分布,数值约束等,语义句法模式
  • 多种工具去帮助数据清洗