Flow chart for data acquisition
是否有足够多的数据?
是否有额外的数据集存在?
是否有数据生成的方法?
Discover what data is available
- 识别已有的数据集
- 找到基准数据集去评估一个新想法
- 例子:使用多种的中小型数据集去一个新的超参数调整算法
- 例子:大数据集去训练一个很深的网络
- 收集新数据
- 例子:汽车驾驶视频涵盖了很多的驾驶场景
Sources of Popular ML datasets
- MNIST:手写数字数据集
- ImageNet:从搜索引擎得到的百万级图片
- AudioSet:用于声音分类的YouTube声音切片
- Kinetics:用于动作识别的YouTube视频切片
- KITTI:通过摄像头和其他传感器记录的交通场景数据集
- Amazon Review:亚马逊网上购物的评价
- SQuAD:来自Wikipedia的问题-答案对
- LibriSpeech:1000个小时的有声读物
Where to find datasets
- Paperwithcodes Datasets
- Kaggle Datasets
- Google Dataset search
- Open Data on AWS
Data integration
- 不同数据源的数据组合起来变成联合数据集
- 从多个表里面生成数据集
- 把表联合起来
- 关键词问题:识别ID,缺失行,冗余的列,值冲突等
Generate synthetic data
- 用GANs生成
- 数据增强
Summary
- 找到合适的数据比较有挑战
- 工业界原始数据和学术界数据对比
- 多数据源的数据融合
- 数据增强是一种常见的措施
- 人工合成数据越来越热门