Data Errors
- 数据经常存在错误 - 与ground truth不一致
- 比如缺少、错误或一些极端值
- 好的ML模型对错误有容忍
- 训练经常是可以收敛,只是精度会降低
- 部署模型上线可能影响到新收集数据的质量
Types of Data Errors
- Outliters:数据值与正常分布不一致
- Rule violations:规则冲突比如“Not NULL”等
- Pattern violations:匹配规则错误,比如美元变成人民币,拼写错误等
Rule-based Detection
- Functional dependencies:x->y 表示一个x决定一个y
- Denial constraaints:制定更灵活的第一级逻辑规则,比如手机号非空等
Pattern-based Detection
- Syntactic patterns:小写转大写
- Semantic patterns:知识图谱
Summary
- 数据错误的类型
- 查找错误修正:模型分布,数值约束等,语义句法模式
- 多种工具去帮助数据清洗