1.2 数据获取【stanford-cs329p】


Flow chart for data acquisition

是否有足够多的数据?

是否有额外的数据集存在?

是否有数据生成的方法?

Discover what data is available

  • 识别已有的数据集
  • 找到基准数据集去评估一个新想法
    • 例子:使用多种的中小型数据集去一个新的超参数调整算法
    • 例子:大数据集去训练一个很深的网络
  • 收集新数据
    • 例子:汽车驾驶视频涵盖了很多的驾驶场景
  • MNIST:手写数字数据集
  • ImageNet:从搜索引擎得到的百万级图片
  • AudioSet:用于声音分类的YouTube声音切片
  • Kinetics:用于动作识别的YouTube视频切片
  • KITTI:通过摄像头和其他传感器记录的交通场景数据集
  • Amazon Review:亚马逊网上购物的评价
  • SQuAD:来自Wikipedia的问题-答案对
  • LibriSpeech:1000个小时的有声读物

Where to find datasets

  • Paperwithcodes Datasets
  • Kaggle Datasets
  • Google Dataset search
  • Open Data on AWS

Data integration

  • 不同数据源的数据组合起来变成联合数据集
  • 从多个表里面生成数据集
  • 把表联合起来
  • 关键词问题:识别ID,缺失行,冗余的列,值冲突等

Generate synthetic data

  • 用GANs生成
  • 数据增强

Summary

  • 找到合适的数据比较有挑战
  • 工业界原始数据和学术界数据对比
  • 多数据源的数据融合
  • 数据增强是一种常见的措施
  • 人工合成数据越来越热门