当前位置:首页 >> 资讯

AI在线求鼓励?这些人记得让GPT-3算术准确率提升61%

来源:资讯   2025年03月13日 02:07

system-2 目标先前表格现不佳的疑问,Wei et al. [2022]、Wang et al. [2022]提出批评了 chain of thought prompting (CoT),它为 LLM 提供了 step-by-step 的求得答后面,而不是嗣后则题目后面,区别如下图附注。

图源:《 Chain of Thought Prompting Elicits Reasoning in Large Language Models》

CoT 的直觉单链演示有助于假设生转成一个求得答方向上,该方向上将十分复杂的求得答分求得为多个单纯的迭代。值得注意的是,有了 CoT 的加持,假设的求得答耐用性更满足 scaling law,并随着母语假设的现有持续增长而持续增长。例如,当与 540B 参数的 PaLM 假设相结合时,与嗣后则再加检验 prompting 远比,chain of thought prompting 在多个指标求得答目标上总体增强了耐用性(如在 GSM8K 上从 17.9% 增强到 58.1%)。

虽然 CoT prompting 的转出乎意料和许多其他特定于目标的 prompting 工作常被归功于 LLM 的再加检验深造并能,但本文所写表格明,通过添加一个单纯的 prompt,即「Let’s think step by step」,LLM 就能被选为一个优异的零检验求得答装置,它显然会引领假设在给出题目先前揭开一步一步的认知(如图 1 附注)。

虽然外表非常单纯,但所写提出批评的 Zero-shot-CoT 转出乎意料地以零检验的作法生转成了可行的求得答方向上,而且最后赢取了合理题目,而嗣后则的零检验新方法(图 1c)并没有人给出合理题目。不可忽视的是,这个 Zero-shot-CoT 非常共通,且不针对具体目标,这相同于先前大大多数以后面(再加检验)或COM(零检验)的表现形式进行、特定于某个目标的 prompt 扩建工程。它可以在除此以外微积分、大写求得答、总括求得答、思路 QA 在内的各种表现形式系统目标先前促使假设逐步问道疑问,无需为每个目标专为修正 prompt。

如图 1 附注,研究工所写将 Zero-shot-CoT 与其他 prompting 基线进行了相当。虽然 Zero-shot-CoT 的表格现不如有着精心建筑设计的、针对特定目标的 step-by-step 后面的 Few-shot-CoT,但与零检验基线远比,Zero-shot-CoT 实现了相当大的得分增强(在 MultiArith 上从 17.7% 增强到 78.7% ,在 GSM8K 上从 10.4% 增强到 40.7%)。不可忽视的是,与再加检验 CoT 基线远比,用到研究工所写建筑设计的单个固定 prompt,零检验 LLM 显然会拥有更优异的 scaling 弧线。

此外,研究工所写还推定出,Few-shot-CoT 除了必须多迭代求得答 prompt 的手工扩建工程之外,当 prompt 后面疑问类型和目标疑问类型不匹配时,它们的表格现显然会下降,这表格明它们对逐目标 prompt 建筑设计的敏感性很高。远比之下,研究工所写提出批评的单个 prompt 共通性很强,适用做多种求得答目标,这表格明 LLM 的零检验为基础并能还没有人被完全开发出来,比如更高层次的广泛认知并能(如共通表现形式系统)。

研究工作细节

Zero-shot-CoT 是一个基于零检验COM的 prompting 新方法,用做直觉单链求得答。它相同于最初的直觉单链 prompting [Wei et al., 2022],因为它不必须 step-by-step 再加检验后面,它也相同于先前的大大多数COM prompting,因为它表象上与目标无关,可以通过单一COM在广泛的目标之内内进行 multi-hop 求得答。该新方法的核心内容非常单纯,如上图 1 附注:添加「Let’s think step by step」,或者相似的重构(如下表格 5 附注),然后就能让假设进行一步一步的求得答。

两先决条件 prompting

Zero-shot-CoT 在概念上很单纯,其微妙之处在于它用到了两次 prompting,如图 2 附注。这是因为零检验基线(图 1 左下角)早已以「The answer is」的表现形式用到了 prompting,以合理的PDF提炼出题目。再加检验 prompting(standard 或 CoT)通过显式地建筑设计以这种PDF结尾(见图 1 右上角)的再加检验后面题目来避免举动类题目提炼出 prompting 的必须。总而言之,Few-shot-CoT [Wei et al., 2022] 必须仔细地或多或再加建筑设计一些 prompt 后面,每个目标都有特定的题目PDF,而 Zero-shot-CoT 不必须这样的扩建工程,但必须两次 promp。

第一个 prompt:求得答提炼出。在这一步先前,首先用到一个单纯的COM「Q: [X]. A: [Z]」将输入疑问 x 修正为一个 prompt,其先前,[X]是 x 的一个输入位置,[T] 是手工触发的句叔父 t 的位置,它将提炼出一个直觉单链来问道疑问 X。例如,如果我们用到「Let’s think step by step」作为触发句,prompt 就是「Q: [X]. A: Let’s think step by step.」然后将被机械加工转成 prompt 的重构 x’输入到母语假设先前,生转成后续句叔父 z。此处可以用到任何求得码思路,但为了单纯起见,研究工所写在整个学术著作先前都用到了贪婪求得码。

第二个 prompt:题目提炼出。在第二步先前,用到生转成的句叔父 z 和被机械加工转成 prompt 的句叔父 x’从母语假设先前提炼出再次题目。具体来话说,我们单纯地将三个表达作法连接起来,如 [X’] [Z] [A]:[X’] 表格示第一个 prompt x’, [Z]表格示第一步生转成的句叔父,[A]表格示用来提炼出题目的触发句。这一步的 prompt 是自增强的,因为 prompt 包含同一个母语假设生转成的句叔父 z。在科学研究工作先前,研究工所写显然会根据题目PDF的相同用到相同的题目触发句。例如,他们在多项选择 QA 先前用到「Therefore, among A through E, the answer is」,在必须大写字母题目的数学疑问先前用到「Therefore, the answer (arabic numerals) is」。最后,将被机械加工转成 prompt 的重构作为输入馈入母语假设,生转成句叔父ˆy 并求得析再次题目。

科学研究工作结果

该研究工作在四类求得答目标的 12 个信息集上评估了新新方法,除此以外微积分、总括、大写和其他表现形式系统目标。

该研究工作对下表格附注的 13 种假设进行了科学研究工作:

Zero-shot-CoT vs Zero-shot

下表格 1 相当了每个信息集上新新方法 (Zero-shot-CoT) 和嗣后则零检验 prompting 新方法(Zero-shot)的嗣后确性。Zero-shot-CoT 在四种微积分求得答目标(MultiArith、GSM8K、AQUA、SVAMP)、所有大写求得答目标和所有表现形式系统目标上都总体比不上 Zero-shot 新方法。

该研究工作还将 Zero-shot-CoT 新方法与其他基线进行了相当,在两个微积分求得答指标(MultiArith 和 GSM8K)上的结果如下表格 2 附注。嗣后则 prompting(第一大多)和 thought prompting(第二大多)之间的相当大差距表格明,如果不用到多迭代求得答,这些目标是非常吃力的。

Zero-shot-CoT 自然不如 Few-shot-CoT,但它甚至在每个目标 8 个检验的情况下都能急剧比不上嗣后则的 few-shot prompting 新方法 。对于 GSM8K,用到 Instruct GPT-3 (175B) 的 Zero-shot-CoT 也比不上见下文 GPT-3 和用到大型假设 (PaLM, 540B) 的嗣后则 few-shot prompting 新方法(上表格 2 第三大多)。

然后,该研究工作实质性科学研究工作来问道如下几个疑问。

假设不等对于零检验求得答应该不可忽视?为了问道这个疑问,该研究工作相当了各种母语假设在 MultiArith 信息集上的耐用性,结果如下表格 3 附注。

如果没有人直觉单链求得答(chain of thought reasoning),耐用性不显然会随着假设现有的减低而减低,或者只是缓太快地减低,持续增长弧线大大多是平坦的。远比之下,随着假设现有大变大,耐用性随着直觉单链求得答而随之增强。当假设现有较小时,直觉单链求得答强制执行。这一结果与 Wei et al. [2022]的 few-shot 科学研究工作结果恰当。此外,研究工所写还手动查看了生转成的直觉单链的质量,大假设有着更好的求得答特性。

prompt 的选择对 Zero-shot-CoT 新方法有什么影响?该研究工作针对输入 prompt 验证了 Zero-shot-CoT 的稳健性。表格 5 总结了用到多个相同句叔父COM的耐用性。结果表格明,如果以「鼓励」直觉单链求得答的作法编写重构,耐用性就显然会赢取增强。但是,根据句叔父的相同,嗣后确性的差异不大。在这个科学研究工作先前,「Let’s think step by step」达到最佳特性。有趣的是,研究工所写推定出相同COM鼓励假设求得答的作法大不相同。

prompt 的选择对 Few-shot-CoT 有什么影响呢?表格 6 表明了 Few-shot-CoT 在用到来自相同信息集的检验时的耐用性。更让人惊讶的是,来自相同具体来话说但具相同题目PDF的直觉单链检验提供了相对于 Zero-shot 的总体耐用性增强。远比之下,当用到具相同题目类型的检验时,耐用性频率大变再加,这表格明 LLM 主要利用 few-shot 检验来推定单调PDF,而不是目标含义。尽管如此,这两种情况的结果都比 Zero-shot-CoT 差,这明特定目标检验扩建工程对 Few-shot-CoT 是至关不可忽视的。

概要单URL:

[1] _source=wechat_sessionCoutm_medium=socialCoutm_oi=56560353017856Coutm_campaign=shareopn

脉血康胶囊治疗脑卒中吗
眼科综合
海露滴眼液真的能护眼吗
乳酸菌素片治疗便秘效果好吗
一加班就便秘怎么办
远大医药
高考时肚子不舒服怎么缓解
孩子感冒咳嗽用什么方法治愈最快
什么样的血糖仪比较好
新冠的药物有哪些
标签:算术准确率
友情链接