1.1 课程介绍【stanford-cs329p】


Machine Learning in Industry

使用机器学习后基本一半以上公司增加了6%以上收入

Industrial ML Applications

  • 制造业:设备维护,质量控制
  • 零售:推荐,聊天机器人,需求预测
  • 医疗:实时病人信息,疾病识别
  • 金融:欺诈检测,贷款等申请处理
  • 汽车:自动驾驶,刹车预测

ML Workflow

形成问题 -> 收集&处理数据 -> 训练&调整模型 -> 部署模型 <-> 持续监控

Challenges

  • 形成问题:关注影响力最大的工业问题,利润最大,增长最大的部分
  • 数据:高质量的数据是稀少的,还存在一些隐私问题
  • 训练模型:模型愈加复杂,存在数据饥渴,代加昂贵问题
  • 部署模型:高计算复杂度对于实时推理并不适宜
  • 监视:数据分布偏移,公平性问题等

Roles

  • 领域专家:有商业视野,知道数据的重要性和怎么收集,识别出机器学习模型部署之后能产生的影响大小

  • 数据科学家:数据挖掘的全栈开发,模型训练和部署

  • 机器学习专家:定制化SOTA的机器学习模型,适应比如实时性等问题

  • 软件开发工程师:开发/维护数据管道,监控维护模型间的关系

  • 个人成长路程:

    • 软件开发工程师 + 领域专家 -> 数据科学家 -> 机器学习专家
  • 数据科学家时间开销分布(根据Anaconda 2020调查,n=1099):

    • 数据加载:19%
    • 数据清洗:26%
    • 数据可视化:21%
    • 模型选择:11%
    • 模型训练和评分:12%
    • 部署模型:11%

Course topics

  • 数据:
    • 收集/处理数据
    • 数据偏移,训练数据是一个样,但实际的标号等可能偏移了
    • 训练时假设是独立同分布,但实际不一定
  • 训练:
    • 模型怎么验证/融合/微调,与实际情况结合
    • 迁移学习
    • 多模态
  • 部署:
    • 模型部署,考虑机器性能等
    • 模型蒸馏,大模型难以上线,提取精华,使得模型够好够快
  • 监视:
    • 公平性
    • 可解释性

Summary

  • 工业界公司采用机器学习
  • 机器学习的流程
  • 本次课程是为了教授一个数据科学家使用机器学习使用到工业界时遇到的一些技术细节