NIPS-2022 Chain of Thought Prompting Elicits Reasoning in Large Language Models

2022-10-29 PaperNote CL 0 0 Comments Word Count: 617(words) Read Count: 2(minutes)

论文地址：Chain of Thought Prompting Elicits Reasoning in Large Language Models

论文实现：https://github.com/amazon-science/auto-cot

AI需要求鼓励吗？在语言模型里面加上一句let’s think step by step就能在数学问题上涨点，这句话也变成了一个梗

Auto-CoT设计一些问题和推理步骤给模型，让模型能够顺着问题推理下去得到正确结果，比人工设计的还要好

CoT：推理链引导语言模型

Abstract

语言模型规模越来越大，从计算量，数据量大小和参数量大小三个角度来衡量模型大小。但即使是大模型，对于推理，符号等任务依然表现不好，所以提出了chain of thought，就是人类遇到问题时的推理步骤，以一系列短句子来表示

Introduction (arxiv v2)

语言模型在达到100B参数量后就能在sentiment analysis和topic classication取得非常好的结果，这种就是system1任务，能够很快被理解的任务

还有一类任务是system2，就需要仔细考虑，涉及逻辑，数学，常识的推理任务，即使模型上了几百B的参数量也很难把任务给撬开，很难实现性能随模型大小的提升而提升，不能大力出奇迹了

Chain-of-Thought Prompting

在给出推理步骤，再给出答案，以这样的样例给模型

CoT能够把问题分解成多个步骤，难的问题会生成更多token，使得需要更多推理的问题分配到更多计算量
提供了可解释性，不知道答案也知道答案怎么来的
使用上任何人类能用语言能解决的问题
通过few-shot learning引发语言模型续写中间步骤

Arithmetic Reasoning

这里算术推理集中在6-10岁小朋友可以解决的问题

Chain-of-thought prompting

人工设计了8个带有COT推理链条的few-shot样例，成本很高，很难调试

这里能体现出COT的重要性

Ablation Study

方法很简单，但是不能再简单了

这里把COT部分替换成equation only，只包含算式的部分，或者其他方法，都有一定差距，体现出COT中自然语言的作用

Robustness of Chain of Thought

对COT比较敏感所以有必要评测一下这套方法的稳健性，带COT的都比不带COT的好很多

本文链接： https://tyang816.github.io/2022/10/29/Chain of Thought Prompting Elicits Reasoning in Large Language Models/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Yang Tan

Master Student @ECUST