Stanford-2022 AI Index Report

报告地址:AI Index Report,数据大多来源于paper with code

因为涉及图片太多了,这里就不一一截取了

Top Takeways

  • 在2021年时,私人公司投资比2020年时翻倍了,变成了93.5亿美元。在2020年时这里有4次融资是五亿美元以上的,而2021年有15次
  • 美国和中国科学家合作发论文是最多的,比第二名中国和英国科学家发表要多2.7倍
  • 模型的能力越来越强,但也带有偏见了。比如GPT的参数从1.17亿提升到2.8亿时偏见多了29%
  • 模型的伦理问题,公平性问题更加常见
  • AI变得更加便宜,效果越来越好
  • 报告中10个测试数据集上有9个最好的方法用了额外的数据
  • 全球关于AI的立法越来越多
  • 机械臂的成本降低,2020年是42000美元,2021年是22600美元

CHAPTER 1: Research and Development

1.1 PUBILICATIONS

如图1.1.1,2021年发表了达33.4万篇AI方向的论文,说明这个方向存在大量的无意义文章,很多是类似于研究者练手的作业。实际有重大影响力的文章在50篇左右的样子

如图1.1.2,杂志的文章增加非常快,而且很多。其次是会议,然后是arixv。arixv其实同行认可较低,因为没有经过同行评审,不能算作是科研成果,而发论文压力大促使了各种杂志出现

如图1.1.3,模式识别数量很多,机器学习增长很快。模式识别讲究一个任务,机器学习是一种技术

如图1.1.4,论文60%来自教育机构,5%来自公司,3%来自政府,11%来自非盈利机构。公司的投入是有所上升的

如图1.1.5,中国论文发表比第二多1.5倍,但引用仅比第二高6个点,杂志很多,会议很多。

如图1.1.10,平均一篇中国文章比美国文章引用数少4倍,但引用较少不代表文章质量低,引用多还可能来自于研究院影响力,英文写作能力等等

如图1.1.24,中国专利投稿多,但接收少

1.2 CONFERENCES

如图1.2.2,1.2.3,ICML参会人员变得越来越多

CHAPTER 2: Technical Perfomance

2.1 COMPUTER VISION-IMAGE

IMAGE CLASSIFICATION
  • Image-Net数据集:如图2.1.2,2.1.3,top1用额外数据集的精度到了90%,容易上升,top5达到了99%,人类的精度在95左右
IMAGE GENERATION

图片生成的任务

在GAN上面调整,用FID分数来验证生成的图片质量,主要就是把两个图片丢到一个inception v3里面,将里面的中间表示拿出来作为一个高斯随机变量,做对比得到分数,如图2.1.5可以看到两张图片的距离是在不断缩小的

DEEPFAKE DETECTION

替换人脸的。这个应用被大量广告,成人应用。

  • FaceForensics++数据集:里面有1000个原始的视频去判断这是生成的还是真实的,如图2.1.7可以看到效果还是不错,基本可以达到99%
  • Celeb-DF数据集:采集了名人的数据,如图2.1.8效果一般
HUMAN POSE ESTIMATION

找出人的关键点,分析运动员动作,监控,虚拟人物设计,手语识别等

  • PCK数据集:在Flickr上采集了2000张运动员姿势图片,判断14个不同关节的位置,如图2.1.10,效果很好
  • Human3.6M数据集:3D姿势识别,有17种不同姿势去判断关节点位置和真实位置的误差,如2.1.11判断误差在2cm左右,已经较少了
SEMANTIC SEGMENTATION

像素分割,主要应用在无人车,图片分析(前景后景,背景模糊),医疗诊断

  • Cityscapes数据集:50个城市里面开车录的视频做分割,用IOU评测标准,如图2.1.13效果还是不错
MEDICAL IMAGE SEGMENTATION

医疗语义分割,判断像素署于哪个器官

如图2.1.15精度提升很快,但离实际的使用可能还有一定距离。因为如果AI将健康的人判定为有病问题不大,但是如果漏诊可能就会错过病人最佳治疗时期

FACE DETECTION AND RECOGNITION

如图2.1.16,人脸识别非常精确了

FACE DETECTION: EFFECTS OF MASK-WEARING

口罩人脸识别,如图2.1.17,戴了口罩误差率还是多了7倍

VISUAL REASONING
  • VQA Challenge数据集:给图片问问题,比如问下图哪个人带了口罩之类。如图2.1.22在2021年在该数据集上达到了和人差不多的精度,但实际应用还有一定距离

2.2 COMPUTER VISION-VIEDO

ACTIVITY RECOGNITION

给一段视频,判断里面的物体在干什么,比如判断人在走路等等

  • Kinetics数据集:视频分到不同种类进行判断。如图2.2.2达到了不错的精度
  • ActivityNet数据集:700个小时的视频,200个不同的行为,需要找出什么时候到什么时候是一个行为和位置,如图2.2.3发现还有很多空间可以进步
OBJECT DETECTION
  • COCO数据集:做得早,数据量很大,如图2.2.5发现进展很好
VISUAL COMMONSENSE REASONING(VCR)

比如问答中从答案中选出正确的,如图2.2.8发现这个方向比较小众,进展并不迅速

2.3 LANGUAGE

ENGLISH LANGUAGE UNDERSTANDING
  • SuperGLUE数据集:有很多子数据集,比如BoolQ,给一段文字回答yes或no;CB,提出猜想表示文字能否支持猜想;COPA,提出前置回答问题。如图2.3.2,2.3.4表示模型很大的时候已经超过了人类的水平
TEXT SUMMARIZATION
  • arXiv数据集:把论文爬下来,根据正文来预测摘要,用ROUGE评估真实和生成的重合片段。如图2.3.7发现这一块还是做得一般,还有很多空间可以去做
NATURAL LANGUAGE INFERENCE

判断上下文是冲突,还是增强,还是没关系的三分类问题,如图2.3.10发现在这个三分类任务上进度是93%还是不错的

  • ANLI数据集:一个比较难的任务,拓展推理,根据上文能拓展出其他的结论。如图2.3.12发现模型进展也比较好,接近人类进度
SENTIMENT ANALYSIS

判断商品,未来好坏等等,如图2.3.14发现精度还是不错的,在一个可接受的范围

MACHINE TRANSLATION (MT)

这个领域有很好的商业模式,如图2.3.16现在没多少开源的,更多是商业的

  • WMT 2014数据集:ACL引用的数据集,英语翻译德语,英语翻译法语等,用BLEU分数评估。如图2.3.15发现近几年有一定提升

2.4 SPEECH

SPEECH RECOGNITION
  • LibriSpeech数据集:提供了1000个小时有声读物,提供了两个版本,一个干净的一个有噪音的。如图2.4.1发现干净数据集下还是比较好,离真实很近的,而噪音数据集下也勉强能用

2.5 RECOMMENDATION

COMMERCIAL RECOMMENDATION
  • MovieLens数据集:如图2.5.1发现2018年-2019年提升很迅速但过去几年提升一般,但这个数据集不是很具有代表性,推荐系统跟业务关系比较大,需要数据量很大,是大厂的游戏
CLICK-THROUGH RATE PREDICTION
  • Criteo数据集:如图2.5.2发现AUC增长较一般,但是一个道理,这还是大厂的游戏

2.6 REINFORCEMENT LEARNING

REINFORCEMENT LEARNING ENVIRONMENTS

环境就可以视作数据集了,环境根据当前行为进行奖励或者惩罚

  • Atari数据集:包含了57个游戏,包括吃豆人等,模型控制游戏机去玩游戏,根据环境反馈不断调整算法。如图2.6.1发现在2017年时有一个很快的发展
HUMAN GAMES

比如下国际象棋,如图2.6.4发现80年代就开始发现,在2016年超越了最好的人类选手

2.7 HARDWARE

MLPerf:Training Time

一个工业界的评测级来评测各个不同的硬件系统和软件系统在不同模型上达到特定精度所花的时间

如图2.7.1,y轴是log,实际是一个指数下降

如图2.7.3发现2020年的时候最多用了4000多张卡

IMAGENET: Training Cost

如图2.7.4在Image-Net上训练到93%精度成本在不断下降

2.8 ROBOTICS

如图2.8.1价格在过去五年降了一倍

AI Skills Employed by Robotics Professors

如图2.8.3发现做机器人的教授们在AI方面主要用的是深度学习技术,其次是强化学习

CHAPTER 3: Technical AI Ethics

最主要关心的是一个模型可能对人类造成的伤害,比如可能有种族歧视,年龄歧视,区分经济地位等等,造成社会分裂的加速,提升公平性降低偏见

3.1 META-ANALYSIS OF FAIRNESS AND BIAS METRICS

公平性是指比如把一个简历适合这个岗位,把性别,年龄,种族修改后不影响结果。但因为这个领域比较新,而且认可度还有待考究所以待定

如图3.1.1表示了模型公平性的一些指标个数

如图3.1.2表示了一些用来测试公平、偏见的数据集和一些诊断的指标

3.2 NATURAL LANGUAGE PROCESSING BIAS METRICS

在NLP里面的一些具体的偏见指标

TOXICITY: REALTOXICITYPROMPTS AND THE PERSPECTIVE API

毒性就是指文本不文明不礼貌

如图3.2.2表示生成有毒文本的概率是多少,可以看到用不同数据训练出来的模型是很不同的

如图3.2.3表示不同大小的模型对毒性的敏感度,给一些引导符容易出现有毒性文字的概率等,发现大模型更容易收到危害

如图3.2.4表示用了三种不同的消毒方法模型性能都有下降

STEREOSET

对性别,种族和宗教有一些特定的偏见

如图3.2.5表示模型越大的时候刻板印象是增加的

WINOGENDER AND WINOBIAS

把性别代名词去掉让语言模型填回来,如图3.2.8表示大模型确实还原度更高一点

3.4 FACTUALITY AND TRUTHFULNESS

FACT-CHECKING WITH AI

用AI来判定虚假消息

如图3.3.2表示过去这几年增长很显著

CHAPTER 4: The Economy and Education

4.1 JOBS

如图4.1.1表示在LinkedIn上不同地区要求有AI相关技能的百分比,但是因为大厂有自己的招聘信息等所以这个结果不是很准确

如图4.1.3表示和AI相关的工作在哪些地区,发现新加坡占的比例蛮高

如图4.1.4表示AI相关技能

如图4.1.5表示哪些行业在招AI相关人员

如图4.1.6表示AI需求人数

如图4.1.8表示哪些人把AI相关集能写在自己的介绍

4.2 INVESTMENT

如图4.2.1和4.2.2表示投资情况

如图4.2.3表示新成立的AI公司

如图4.2.10和4.2.11表示AI公司的领域,主要是云、医疗健康、金融、自动驾驶。历史上最好的是医疗和健康、云等

4.3 CORPORARE ACTIVITY

如图4.3.4表示工业界对AI的风险的担心,主要是安全、法规、可解释性、隐私,反而劳动力问题在下降

4.4 AI EDUCATION

如图4.4.1表示毕业生增长很快

如图4.4.3表示有21%的应届博士是毕业于AI或机器学习的

CHAPTER 5: AI Policy and Governance

5.1 AI AND POLICYMAKING

如图5.1.1表示法律法规的通过基本还是线性增长

通过的法案很多都是促进的法案