Quiet-STAR:语言模型可以在说话之前自学思考

Eric Zelikman
Stanford University &Georges Harik
Notbad AI Inc &Yijia Shao
Stanford University &Varuna Jayasiri
Notbad AI Inc &Nick Haber
Stanford University &Noah D. Goodman
Stanford University
摘要

在写作和说话时,人们有时会停下来思考。 尽管以推理为中心的作品通常将推理视为回答问题或完成代理任务的方法,但推理几乎隐含在所有书面文本中。 例如,这适用于证明的字里行间未说明的步骤或对话背后的心理理论。 在自学推理机(STaR,Zelikman 等人 2022)中,通过从问答中的少量样本示例中推断基本原理并从导致正确答案的示例中学习来学习有用的思维。 这是一个高度受限的环境——理想情况下,语言模型可以学习推断任意文本中未阐明的基本原理。 我们提出了 Quiet-STaR,这是 STaR 的推广,其中 LM 学习在每个词符处生成基本原理来解释未来的文本,从而改进他们的预测。 我们解决了关键挑战,包括 1) 生成延续的计算成本,2) LM 最初不知道如何生成或使用内部思想,3) 需要预测超出单个下一个标记的需求。 为了解决这些问题,我们提出了一种标记并行采样算法,使用可学习的标记来指示思想的开始和结束,以及扩展的教师强制技术。 令人鼓舞的是,生成的理由在很大程度上有助于对难以预测的 Token 进行建模,并提高 LM 直接回答难题的能力。 特别是,在使用 Quiet-STaR 在互联网文本语料库上继续预训练 LM 后,我们发现 GSM8K (5.9%10.9%) 和 CommonsenseQA (36.3%47.2%)并观察自然文本中困难标记的困惑度改善。 至关重要的是,这些改进不需要对这些任务进行微调。 Quiet-STARaR 标志着 LM 迈出了一步,可以以更通用和可扩展的方式学习推理。

“生命只能向后理解;但它必须向前发展。”

——索伦·克尔凯郭尔

1简介

文本的大部分含义都隐藏在字里行间:如果不了解语句出现在文档中的原因,读者的理解就很肤浅。 此外,在从常识推理到定理证明再到编程等任务的背景下,这对于语言模型来说也是如此(Wei 等人,2022b;Nye 等人,2021;Zelikman 等人,2022 ;2023a;小岛等人,2022) 推理文本的含义以预测后面的文本一直被证明可以提高 LM 在各种任务上的性能,但允许 LM 从推理中学习的方法(例如,Zelikman 等人 2022)重点关注解决单个任务或预定义任务集(例如 Wei 等人 2021b)。 这些工作依赖于精心策划的数据集来提供特定的推理任务,或者在某些情况下提供推理本身。 相反,我们会问,如果所有文本都隐含推理,为什么我们不应该利用语言建模任务来教授推理?

特别是,自学推理机(STaR,Zelikman 等人 2022)表明,LM 可以通过采样原理来尝试回答问题,从而引导他们在问答(QA)数据集上的推理能力,训练如果它们得出正确的最终答案,则说明其基本原理,然后重复此过程以迭代解决更困难的问题。 然而,来自策划的 QA 数据集的训练限制了基本原理的规模和普遍性。 QA 数据集,尤其是高质量的数据集,需要深思熟虑的管理,并且本质上只涵盖推理任务的子集。 因此,我们扩展了 STaR——我们不是让 LM 学习对数学 QA 等特定任务进行推理,而是训练 LM 来生成推理,帮助它从大型互联网文本语料库中推断出未来的文本。 因此,我们允许 LM 从语言中存在的各种任务中学习(Weber 等人,2021) 这建立在当前语言建模范式所必需的直觉之上,即“语言模型是无监督的多任务学习者”(Radford 等人,2019) 因此,就像在 STaR 中一样,我们利用 LM 预先存在的推理能力来生成基本原理,并使用基于 REINFORCE 的奖励来训练 LM (Williams,1992) 我们将这种技术称为 Quiet-STaR,因为它可以理解为“安静地”应用 STaR,训练模型在说话之前先思考。

Refer to caption
图1: 安静-STAR 我们将训练过程中应用的算法可视化为一个单一的想法。 我们按照文本 (think) 中的所有标记并行生成想法。 该模型会产生带有和不带想法(谈话)的下一个标记预测的混合。 我们应用 REINFORCE(如 STaR 中那样)来增加有助于模型预测未来文本的想法的可能性,同时丢弃那些使未来文本不太可能(学习)的想法。

概括地说,Quiet-STaR 的做法是在每个词符之后生成基本原理来解释未来文本 (think),将未来文本预测与有或没有基本原理混合在一起 (talk),以及然后学习使用 REINFORCE 生成更好的理由(学习)。 我们使用网络文本数据集 OpenWebMath (Paster 等人,2023 年) 和 Colossal Clean Crawled Corpus(C4,Raffel 等人,2020 年)将 Quiet-STaR 应用于 Mistral 7B (Jiang 等人,2023 年) 我们发现,即使没有针对数据集的微调,Quiet-STaR 也能提高 CommonsenseQA (36.3%47.2%) 和 GSM8K (5.9%10.9%),并且这些改进随着 LM 内部思想中使用的 Token 数量的增加而不断增加。 最后,我们定性研究生成的基本原理中的模式。

在解决这个任务的过程中,我们做出了以下贡献:

  1. 1.

    我们将 STaR 推广到从各种非结构化文本数据中学习推理。 据我们所知,这是第一项明确训练 LM 从文本中进行一般推理的工作,而不是针对精心策划的推理任务或推理任务集合。

  2. 2.

    我们提出并实现了一种并行采样算法,使我们的训练过程可扩展,从给定字符串中的所有词符位置生成基本原理。

  3. 3.

    我们在每个想法的开始和结束处引入自定义的元 Token ,让 LM 知道它应该生成一个基本原理,以及何时应该根据该基本原理进行预测。

  4. 4.

    我们应用混合头来回顾性地确定将给定思想的下一个 Token 预测合并到当前下一个 Token 预测中的程度。

  5. 5.

    我们证明了一个非短视损失,包括语言建模前面的多个标记,可以提高思维的效果。

  6. 6.

    在多项任务中,我们证明,与在同一网络文本上训练的语言相比,思维可以让 LM 更好地预测困难的标记,并且随着更长的思考而改进。

Refer to caption
(一)GSM8K
Refer to caption
(b) 常识问答
图2: 泛化结果 我们评估使用 Quiet-STAR 训练的模型泛化到直接回答需要推理的问题的程度。 左图 (a) 显示了 GSM8K 上的零样本准确性,右图 (b) 显示了 CommonsenseQA 上的零样本准确性,无需任何微调。 在这两张图中,x 轴代表训练步骤,每条线对应于 Quiet-STaR 训练期间使用的不同数量的思维标记。 y 轴测量各个数据集上零样本的直接准确性。 我们还在图 6 中包含了该图的推理归一化版本。

2相关工作

2.1 语言模型中的推理

有许多关于训练和利用语言训练模型来解决困难任务的工作,首先让它们进行推理。 例如,Rajani 等人 (2019) 证明,在回答多项选择常识推理问题之前,经过微调以输出人类推理痕迹的预训练语言模型优于直接根据答案进行训练的语言模型。 Shwartz 等人 (2020) 证明,当语言模型提供一些脚手架时,可以生成这些有用的思维链解决方案,而无需额外的监督。 后来,Nye 等人 (2021) 证明,当语言模型能力更强时,“草稿本”需要更少的脚手架,这一结果后来被 Wei 等人 (2022b) 强化,强调非正式任务,并由 Kojima 等人 (2022) 进一步强化,证明这种行为可以通过零样本来完成。 最近,Wang & Zhou (2024) 进一步表明,对于常识性问答,我们可以通过阻止语言模型发出任何有效的答案标记来强制语言模型利用思想链推理,除非它发出任何有效的答案标记。很有信心。 然而,这些方法仅适用于问答数据集,并且 Wang & Zhou (2024) 依靠启发式方法来识别模型何时输出答案标记。 有点像 TRICE (Phan 等人, 2023),我们使用目标文本跨理由的对数似然的相对改进作为质量的估计,但我们只是减去平均奖励,而不是纳入更复杂的控制变量。

Input: Language model θ0, training steps num_steps, sequence length l, thought length t, learning rate α, batch size b, number of thoughts nthoughts, number of ground truth tokens used for supervising each thought ntrue
Output: Language model θ that generates rationales to predict future text
for i=0 to num_steps do
       Sample batch of sequences X of length l
       hinithidden_statesθi(X)
       for j=1 to l in parallel using attention mask do
             logpj:j+ntrueinitlm_headθi(hj:j+ntrueinit)
              // Predict next tokens
             Tjgenerate_tokensθi([X:j;<start_thought>],t,nthoughts) // Generate thought
             Tj[Tj;<end_thought>]
             hj:j+ntruethoughthidden_statesθi([X:j;Tj;Xj:j+ntrue1])
             logpj:j+ntruethoughtlm_headθi(hj:j+ntruethought)
              // Predict next tokens w/ thought
             wj:j+ntruemixing_headθi(hj:j+ntruethought,hj:j+ntrueinit)
             logpjtalkwj:j+ntruelogpj:j+ntrueinit+(1wj:j+ntrue)logpj:j+ntruethought
              // Mix logits
             jNLLlogpj:j+ntruetalk(Xj+1:j+ntrue+1)
             rj=logpj:j+ntruetalk(Xj+1:j+ntrue+1)logp¯j:j+ntruetalk(Xj+1:j+ntrue+1)
             θjREINFORCErj𝟙[rj>0]θlogpθi(Tj|[X:j;<start_thought>])
             θjθjNLL+θjREINFORCE
      θi+1θiαj=1lθj
        // Update model parameters
      
return θnum_steps
Algorithm 1 Quiet Self-Taught Reasoner (Quiet-STaR)

2.2 训练语言模型进行推理

研究人员用来训练语言模型进行推理或改进推理的一个方向是基于挖掘推理轨迹或类推理数据的语言模型(Rajani 等人, 2019; Wei 等人, 2021a; Lewkowycz 等人, 2022;Chung 等人,2022;Gunasekar 等人,2023) 尽管这种方法已被证明是有效的,但它也有缺点。 它需要手动标注,这对注释器的能力敏感,并且对于语言模型来说是偏离策略的(即,推理的分布不是语言模型本来可能生成的文本)。 这种方法也很昂贵,难以扩展,并且没有提供明确的路径来解决比注释者能够解决的问题更难的问题。

教学推理的另一个方向依赖于语言模型自身生成的推理,这可以被视为建立在大量关于自我游戏的文献之上(Silver 等人,2017;Anthony 等人,2017;Polu & Sutskever, 2020) 其中包括诸如自学推理器(Zelikman等人,2022)之类的方法,该方法证明,通过迭代训练推理得出正确答案的语言模型可以解决越来越困难的问题。 后来的工作旨在利用额外的信息或假设,例如 Huang 等人 (2022),它证明,如果假设多数票答案是正确的,那么 STaR 中提出的算法仍然可以工作(尽管这已经最终性能较低)。 进一步的工作概括了 Zelikman 等人 (2022) 的结果,例如 Uesato 等人 (2022),它证明了“基于流程”的监督在推理不正确的情况下的额外有用性痕迹被过滤,最近的 V-STaR (Hosseini 等人, 2024) 表明训练验证器来指导生成也可以提高性能,以及 TRICE (Hoffman 等人, 2024) 在给定每个问题的多个推理轨迹的情况下,最大化正确答案的边际可能性。 最后,相关工作还探索了在进行数学陈述的约束环境中学习中间推理,其中模型的中间推理中的陈述可以被限制为仅是有效的数学陈述(Poesia等人,2023) 我们在附录 F 中包含了对相关推理工作的进一步讨论。

2.3 元 Token

最近,越来越多的工作证明了优化自定义 Token 以在神经网络环境中执行特定功能的有用性 - 因此,它们也被称为“函数向量”。 (托德等人,2023) 其最初的实例之一是提示调整 (Lester 等人, 2021) (以及相关的前缀调整 (Li & Liang, 2021)),其中嵌入可以优化与提示的标记相对应的标记以更好地完成任务。 其他人应用元 Token 来压缩长提示(Li 等人,2023;Jung & Kim,2023)以提高效率。 与这项工作最相关的是,Mu 等人 (2024) 优化了一个词符,当它后面的标记无法处理它之前的标记时(即上下文压缩词符),它将为未来的 Token 提供足够的信息。 虽然我们不关注压缩,但我们共同面临学习词符的问题,该词符会影响注意力并控制复杂的下游行为。 在一项相关工作中,Goyal 等人 (2023) 表明,学习单个“暂停”词符(本质上将每个词符表示为两个标记)可以提高 LM 性能。 然而,与我们作品中的思想标记不同,这个停顿词符并没有初始化一个思想——相反,它可以被视为充当整个思想。 我们发现用语言进行推理明显更有帮助。

3问题陈述

在这项工作中,我们在序列的每对观察到的标记之间引入了一个辅助“基本原理”变量。 然后,我们的目标是优化具有参数 θ 的语言模型,该模型能够生成中间思想(或基本原理),以便

θ=argmaxθEx[logpθ(xi:n|x0:i,rationaleθ(x0:i))]

请注意,原则上,这比已经正确建模语言在字符串上的分布的最佳语言模型没有任何优势。 然而,在实践中,大量的先前工作表明,语言模型受益于推理任务的中间原理(Nye 等人,2021;Zelikman 等人,2022;Wei 等人,2022b) 一些工作旨在解释思维链推理的效果,即将其归因于“经验局部性”(Prystawski 等人,2024) 更广泛地说,推理允许模型将具有挑战性的计算分解为更小的步骤。 实际上,我们训练模型来了解哪些分解和规划步骤对于预测未来文本是有效的。 另请注意,我们将目标制定为准确预测剩余序列,而不仅仅是下一个词符。 再说一次,对于一个最优的 LM,这些是等价的。 然而,我们发现非近视的表述会导致学习原理的更有效损失。

4安静-STAR

4.1概述

Quiet-STaR 通过三个主要步骤运行(图 1):

  1. 1.

    并行理由生成(思考,第 4.2 小节):在输入序列 x0:n 中的 n 个符元 xi 上并行,我们生成长度为 tr 个理由:ci=(ci1,,cit),从而产生 n×r 个理由候选。 我们插入学习的 <|startofthought|><|endofthought|> 标记来标记每个基本原理的开始和结束。

  2. 2.

    混合后理由预测和基础预测(讨论,第 4.3 小节):从每个理由后的隐藏状态输出中,我们训练一个“混合头”——一个浅层 MLP,产生一个权重,以确定与基础语言模型预测的 logits 相比,后理由下一个符元预测的 logits 应该被合并多少。 由于引入了基本原理,这种方法可以在微调早期缓解分布变化。

  3. 3.

    优化理由生成(学习,第 4.4 小节):我们优化理由生成参数(开始/结束符元和 LM 权重),以增加使未来文本更可能的理由的可能性。 我们使用 REINFORCE 根据其对未来 Token 预测的影响为基本原理提供学习信号。 为了减少方差,我们应用了一种教师强制技巧,将不仅预测思想后的词符而且还预测后来的标记的可能性包含在损失中。

Refer to caption
图3: 并行生成 通过构建一个注意力掩码,允许所有思想标记关注自身、同一思想中所有先前的思想标记以及先前的文本,我们可以并行生成所有思想的延续。 每个推理调用都用于为所有文本标记生成一个附加的思想词符。

4.2 并行生成

Quiet-STAR 的一个关键挑战是在输入序列中的每个词符位置高效生成基本原理。 天真地,这需要为每个词符进行单独的前向传递,这对于长序列来说在计算上变得困难。

我们通过首先观察语言模型的推理过程为所有输入标记生成下一个标记的概率分布来允许高度并行生成。 当然,这允许我们从输入中的每个词符中采样下一个词符。 如果从每个词符生成了后继者,则不可能简单地继续原始序列。 例如,想象一下预测“<bos> 猫坐在”每个符元后的下一个符元,人们可能会生成“是的,橙色,看到了,下来”——每个后继者本身都是序列前缀的合理下一个符元,但符元列表是一组这些前缀的“反事实”延续。 然而,我们可以利用这些延续来为每个观察到的词符生成隐藏的想法。

为了有效地做到这一点,我们缓存每个前向传递并将对角注意掩码连接到前一个注意掩码:每个生成的词符现在关注用于生成它的所有标记以及其本身(但不关注词)符在其他“反事实”路径上)。 此外,这种并行的下一采样词符过程可以重复任意多次(或者至少,直到内存耗尽)。 我们在图 3 中可视化了这个过程,并在附录 B 中强调了使该算法更快的其他方法。

4.3 “混合”(残留)头

当从预训练模型开始时,思想最初会失去分布,从而损害语言建模性能。 为了平滑向思维的过渡,我们在有思维和无思维的 LM 预测之间引入了学习插值。 给定思想结束词符的隐藏状态和原始文本词符的隐藏状态,混合头输出一个权重,该权重决定思想后预测逻辑的使用程度。 我们为这个头使用浅多层感知器,为每个词符输出一个标量。 我们在附录 A 中包含了实现细节。

4.4 优化基本原理生成

4.4.1 优化思考开始和思考结束标记

<|startofthought|><|endofthought|> 标记作为学习的元标记来控制模型的基本原理生成。 优化这些标记的表示,尤其是 <|startofthought|> 词符,至关重要,但由于基本原理标记的离散性而具有挑战性。 我们将开始和结束词符嵌入初始化为与破折号“”对应的嵌入,它经常出现在文本数据中表示暂停或思考。 这利用了语言模型预先存在的知识。 此外,为了更快地优化这些嵌入,我们在更新步骤中对这些嵌入的梯度应用(超参数)权重。 直观上,起始思维词符可以理解为让模型进入“思维模式”,结束思维词符可以理解为告诉模型思考完成了。

Refer to caption
图4: 前向传递和教师强制 我们可视化算法的单个前向传递。 实线表示语言模型计算,虚线表示通过教师强制插入 Token ,混合器表示混合头。 特别是,我们可视化预测未来的三个标记。 思想生成在图 1 和图 3 中更详细地展示。

4.4.2 非近视评分和教师强制

因为我们不期望思想在预测每个词符时有用,所以我们希望模型的奖励更少地依赖于文本中紧随思想的下一个单词,而更多地依赖于接下来的语义内容。 这里有两个主要挑战。 首先,与使用 Transformer 的典型语言建模不同,只有与给定的下一个标记预测相对应的思想才会接收来自该预测的梯度——这是我们并行采样策略的结果。 我们可以通过对之前的 Token 进行采样,为未来的 Token 添加损失项来解决这个问题。 然而,这会导致一般语言建模的熵更高,并且生成的文本质量较低,因为它会训练 LM 部分忽略其前面的标记。 相反,我们使用并行注意力掩码来计算真正的下一个标记的对数概率,通过假设模型选择了正确的下一个真实词符(隐含在使用 Transformer 的正常语言建模中)来应用教师强制。 请注意,每个未来词符的损失还取决于根据最终思想词符和先前观察到的词符计算出的混合权重。 损失中包含的未来 Token 数量是一个超参数。 我们应用相同的教师强制技术来插入开始和结束标记。 我们在图 4 中可视化了这个过程。

4.4.3 目标

我们使用 REINFORCE 来优化理由的可能性,这些可能性基于其有用性:语言模型在给定先前观察到的符元和特定理由 (pj:j+ntruetalk 作为思考后混合预测概率的简写,见算法 1) 下的 ntrue 真正的下一个符元 Xj+1:j+ntrue+1 的对数似然。 为了减少方差,我们为输入序列中的每个词符生成多个基本原理延续(大致受 TRICE, Phan 等人 (2023) 启发)。 因此,我们将每个理由 Tj 的奖励 rj 定义为 pj:j+ntruetalk 与该符元的理由平均值 (p¯j:j+ntruetalk) 之间的差:

rj=logpj:j+ntruetalk(Xj+1:j+ntrue+1)logp¯j:j+ntruetalk(Xj+1:j+ntrue+1)

然后,我们在强化损失项中使用此奖励来更新语言模型参数θ,以增加表现优于平均水平的基本原理的可能性:

θjREINFORCE=rjθlogpθ(Tj|[X:j;<|startofthought|>])

我们发现从 REINFORCE 损失项中排除负奖励是有用的,因为它导致更稳定的训练,尽管它可能会引入一些偏差。

该损失项鼓励模型生成理由,与该词符的所有生成理由的平均预测相比,改进其对未来 Token 的预测。 该损失的梯度用于更新 LM 参数以及思想开始和思想结束词符嵌入,并将(超参数)权重应用于思想开始和思想结束的梯度思想词符嵌入加速其优化。 通过迭代优化这些参数,Quiet-training STaR 训练模型以在整个过程中生成更有用的基本原理。 最后,我们还包括一个对数似然损失 jNLL,以确保 LM 学会优化说话的头部,并接收基本 LM 头部的下一个标记预测信号111由于我们的线性混合,相当于将混合权重移向基础预测。.

5实验和结果

直觉上,并非所有 Token 都需要同样多的思考。 例如,考虑句子“the person is run-”:尽管词符不可避免地有可能不是“ing”222For example, in this very text, the token following “run” is “-”,作为一个没有上下文的独立句子,不太可能进行额外的思考改进训练有素的模型的预测。 事实上,我们推测对于大多数在线文本的大部分内容来说,额外的思考几乎没有影响。 事实上,在我们探索的早期,我们观察到 Quiet-STaR 并不能平等地使所有 Token 受益。 因此,我们设计实验来研究我们的方法是否有助于预测确实需要思考的标记。 我们评估 1)Quiet-STAR 是否提高了语言模型直接预测需要推理的数据集中答案的能力; 2) 思考 Token 产生的影响的分布。 我们从 Mistral 7B 的基础版本开始进行所有实验(Jiang 等人,2023)

我们通过 OpenWebMath (Paster 等人, 2023) 上的训练来执行大部分实验,这是一种强调更多技术性网页的爬行。 我们选择 OpenWebMath 是因为我们预计它将具有更高的 Token 密度,从而受益于推理,我们的实验支持这一点。 我们还在 C4 (Raffel 等人, 2020)(一个广泛使用的 LM 预训练语料库,具有更多样化的文本)上评估 Quiet-STaR,并再次显示出显着但较小的好处。

5.1下游性能

在本小节中,我们评估 Quiet-STaR 在 CommonsenseQA (Talmor 等人,2018)和 GSM8K (Cobbe 等人,2021)上提高语言模型零样本推理能力的程度) 在 CommonsenseQA 上,我们发现 Quiet-STaR 与基础语言模型相比性能提高了 10.9%。 如图 2 所示,这种改进随着模型理由中使用的符元数量的增加而始终如一地增加,表明通过思想符元进行更彻底的推理正在转化为更好的直接问答性能。 同样,在 GSM8K 上,Quiet-STaR 比基本模型提高了 5.0%,并且性能再次随着 Quiet-STaR 训练期间生成的基本原理的长度而变化。 为了参考,在图 2 中,我们包含了一个基线,对应于在相同数据集上训练相同的模型,但没有思想符元。 我们观察到,在多条曲线中,性能似乎最终会恶化——我们预计这是因为我们没有在这些下游任务上进行训练,因此思想标记的角色可能会随着时间的推移而改变。 我们还发现我们的非短视目标有益,我们在附录 D 中进行了讨论。

我们发现在 C4 (Raffel 等人, 2020) 上使用 Quiet-STAR 进行训练也提高了 GSM8K (5.9%8.1%) 和 CommonsenseQA (36.3%42.6%) 上的性能,但是以较小的幅度。 具体来说,对于我们的 C4 评估,我们训练 Mistral 7B,前面有 16 个思想标记和 4 个真实标记,其他设置相同。

我们可以将这些改进与暂停标记 (Goyal 等人, 2023) 提供的改进进行比较,后者可以看作 Quiet-STaR 的受限版本,其中每个词符由两个标记表示,第二个词符表示“停顿”词符充当整个思想。 特别是,我们的设置与他们的暂停词符微调最相似,因为我们还微调了预训练模型。 他们的结果表明,与 CommonsenseQA 上的基本模型相比,暂停词符微调也提供了微小的收益,他们观察到从 26.9% 提高到 28.8%;在 GSM8K 上,Goyal 等人 (2023) 发现暂停词符微调会损害性能。 此外,在这两项任务(以及大多数评估的任务)中,他们观察到额外的思维标记会损害性能。 此外,他们讨论了“暂停微调标准预训练模型的冷淡效应”(Goyal 等人,2023) 这表明,与单标记“暂停”相比,允许模型生成多标记基本原理会导致更有效的推理。 但请注意,与 Goyal 等人 (2023) 不同,我们不会对下游任务进行干预

总体而言,这些下游结果验证了训练语言模型来预测一般文本数据行之间的潜文本可以显着提高其推理能力,即使在未明确训练的数据集上也是如此。 较长的基本原理始终会带来更好的结果,而且 Quiet-STaR 优于受限暂停词符方法,这一事实支持了这样的观点:Quiet-STaR 正在成功地教导模型利用其自己生成的想法来更彻底地推理输入。

5.2改进分布

如附录图 7 所示,我们发现平均而言,语言模型预测任意符元的能力几乎没有提高。 但是,当我们可视化相对改进的分布时,更困难的标记出现了不成比例的改进。 这反映了这样的想法,即某些文本标记要困难得多,并且从仔细的思考中受益更多。

在附录图 8 中,我们旨在对改进发生的符元类型提供一些见解。 也就是说,虽然思考似乎对示例中的许多标记有帮助,但检查表明,在回忆相关信息(例如适用定理的名称或证明中下一步的开始)时,它对预测标记的帮助更大。 值得注意的是,这与 Prystawski 等人 (2024) 提出的框架非常吻合。

Refer to caption
图5: 应用于 GSM8K 上链式思维的 Quiet-STaR 的零样本性能 我们将可视化如何使用经过 Quiet-STaR 训练的 Mistral 模型可以提高链式思维性能。 我们使用一个经过 8 个思维符元训练的模型,并使用其内部思维来改进零样本链式思维中的符元 (Kojima 等人,2022)

5.3 Quiet-STaR 和链式思维

虽然链式思维提示和我们的方法之间存在自然对应关系,但它们是正交和互补的。 在零样本链式思维中,用户主动提示模型“大声思考”,否则使用其普通生产分布 (Kojima 等人,2022);Quiet-STaR 允许模型在每个符元处安静地思考,并使用经过训练以使其有用的分布。 我们研究了在生成显式 CoT 推理的同时使用无声的、Quiet-STaR 的理由。 由于我们的目标是通用的推理,它根本不需要任何特定于任务的输入,因此我们使用了一个零样本提示(“让我们一步一步地思考”),没有上下文示例。 我们的实验表明,内部理由允许模型生成更结构化和连贯的思维链,如附录 E 所示,并在图 5 中可视化。 在 128 个 GSM8K 测试项目样本上进行评估,在 8 个样本上的多数投票准确率 (cot-maj@8) 从 40.6% 提高到 47.7%。 注意,每个链式思维解决方案都是用温度 0.7 采样的。

5.4 示例

虽然 Quiet-STaR 中没有明确的正则化来使思想可被人理解,但它们是从同一个经过训练以建模语言的 Transformer 生成的,因此很可能至少部分可理解。 我们在附录 I 中讨论了这种设计选择如何有利于训练稳定性。 为参考,我们包含了在 OpenWebMath 中生成的有助于模型预测未来符元的示例想法。 首先,在一种情况下,回想起应该从镁开始生产氮化镁,可以更好地预测该过程的第一步涉及加热镁。

'<s># 与0> 1>氮发生反应2> 3>至4> 5>形式6> 7>镁8> 9>氮化物0>。1> 化学 公式 这个 反应0> 1>是2> 3>镁4>+5>N_26>->7> 8>MgN_29>.0> 什么 是什么 产品 0>什么1> 2>是3>4>5>6>产品7>、8>9>0>1>这个2>3>反应4>?\5>n6>\7>n一月8> 9>12,0> 1>2016\ 2>n3>\4>n5> 6>公式7> 8> 对于9> 0>镁1> 2>氮化物3> 4>是5>6>$M7>8>{9>克0>}1> _2>{3}3> 4>{5>否6>}7>_8>{2}9>$0>.\1>n2>\3> n4>####5> 6>说明7>:\8>n9>\0>n作为1> 2>做3> 4>许多5> 6>活性7> 8>金属9>、0> 1>镁2> 3>氮化物4> 5>可以6> 7>为8><| 9>思想开始0>|>1> 2>13> 4>--,5> 6>所以7> 8>9> 0>方程1> 2>3> 4>5> 6>反应7> 8> 9> 0>形成1> 2>镁3> 4>氮化物5> 6>是7>\8>n9>\0>n$Mg1>2>+3>4>N_25>6>\\7>到8><|9>思想终结0>|>1>2>形成3> 4>通过5>6>加热7>8>9>0>金属1> 2>(3>纤维4>'5> 6>\7>结束8>{9>列表0>}1>
某些情况 最有用 最有用 0>有用1> 2>想法3>4>出现5>6>成为7>8>成为9> 0>接近1>-2>延续3> 4>那个5> 6>对应7> 8>更多9> 0>紧密1> 2>到3> 4>5> 6>目标7> 8>文本9>,0>1>e2>。3>g4>。,5>
\开始{列表}
一个 整数 $n$ 奇数 如果0> 1>$n2> 3>=4> 5>26>k7>+18>$9> 0>对于1> 2>一些3> 4>整数5> 6>$k$7>.\8>n9>\0>n至1> 2>证明3> 4>5> 6>$A7> 8>=9>0>B$1>,2>3>我们4> 5>必须6> 7>表明8> 9>0> 1>$A2>3>\\4>subseteq5>6>B$7>8>和9>0>$B1>2>\\3>子集4>5>A$6>。7> 第一个第一个这些 倾向于 走向0><|1>startthought2> |>3> 4>在5> 6>一些7> 8>意义9> 0>-1> 2>为3> 4>为5> 6>7> 8>更多9> 0>困难1><|2>最终思想3>|>4> 5>最棘手6> 7>对于8> 9>学生0>

最后,我们提供了一个回答 CommonsenseQA 的示例。 值得注意的是,这种想法是在阅读问题时出现的,因此不用于预测最终答案。

'<s>Q: 说话 0>说话1> 2> 相同3> 4>人5> 6>关于7> 8>9> 0>相同1> 2>事情3> 4>超过5> 6>和7> 8>再次9> 0>1> 2> 是3><|4>startofthought5>|>\6>n7>\8>n9>(0>a1>)2>3>a4> 5>一个6>-7>到8>-9>一个0> 1>相关性2>\3>n4>\5>n6>(7> b8>)9>0>a1>2>一3>- 4>到5><|6>结束思想7>|>8> 9>某事0> 1>某人2> 3>可以4> 5>什么6>?'7>

6 局限性

这项工作提出了一个学习推理的新框架,并在此过程中探索了各种元学习挑战的解决方案。 然而,为了解决这些挑战,需要进行某些简化。 例如,了解从头开始训练模型时这些技术是否有效是很有价值的。 我们也只将 Quiet-STAR 应用于 70 亿个参数的模型,尽管这个模型很强大。 将相同的技术应用于更好的模型可能会产生不成比例的更好结果,正如经常观察到的推理收益(Wei等人,2022a)

Quiet-STAR 会产生大量开销,在生成每个附加词符之前会生成许多 Token 。 (请参见附录 6 以获取经过计算调整后的性能结果。) 然而,这也可以被视为一个优势:通常,语言模型可以根据当前上下文生成下一个词符,虽然有提高采样质量的技术,但没有通用的方法来利用额外的计算来增强下一个词符。 - Token 预测。 在当前的实现中,我们不支持动态预测何时生成或结束理由。 然而,这将是一个自然的延伸。 例如,如果混合头是来自基本语言模型的预测,则在任何想法之前而不是在想法之后,人们可以应用阈值来防止生成不会被合并的想法。 我们预计这是一项更困难的任务,因为当一个人已经产生了一个想法时,预测该想法的有用性会更简单。

7 结论

Quiet-STAR 代表了向能够以通用且可扩展的方式学习推理的语言模型迈出了一步。 Quiet-STaR 通过对隐含在不同网络文本中的丰富推理任务进行训练,而不是狭隘地专门针对特定数据集,Quiet-STAR 指出了更强大、适应性更强的语言模型的道路。 我们的结果证明了这种方法的前景,Quiet-STAR 提高了下游推理性能,同时生成了具有定性意义的基本原理。 我们相信这也开辟了许多潜在的未来方向 - 例如,人们可能旨在整合思想以进一步改进对未来 Token 的预测。 此外,如果语言模型可以预测思想何时有用,例如通过在预测之前放置混合头,则可以使用预测的混合权重在生成期间动态分配计算。 未来的工作可以建立在这些见解的基础上,进一步缩小语言模型和类人推理能力之间的差距。

道德声明

这项工作提出了一些重要的伦理问题,其中许多也适用于 STaR。 例如,不可能知道模型用语言表达的推理是否准确地代表了模型的内部处理(即忠实度)。 此外,无论忠诚度如何,如果模型发现有害或有偏见的推理模式有用,就无法防范它们。 与此相关的是,我们注意到 CommonsenseQA 存在许多有偏见的问题和低质量的答案(Geva 等人,2019),但我们按照之前的工作(Zelikman 等人, 2022;Goyal 等人,2023) 因此,除了改进语言建模之外,还不清楚原理本身应该用于什么用途。

致谢

我们特别感谢 Xindi Wu、Michael Li 和 Qian Huang 的宝贵意见和详细评论,以及 Xuechen Li、Jan-Philipp Fränken、Yuhuai Wu、Gabriel Poesia、Winnie Xu、Omar Shaikh、Fan-Yun Sun、Joy He-Yueya、Omar Khattab 和 William Yin 的有益讨论。 此外,我们要感谢这项工作得到了 NSF Grant #2302701 的支持。

参考

  • Anthony et al. (2017) Thomas Anthony, Zheng Tian, and David Barber. Thinking fast and slow with deep learning and tree search. Advances in neural information processing systems, 30, 2017.
  • Chen et al. (2023) Baian Chen, Chang Shu, Ehsan Shareghi, Nigel Collier, Karthik Narasimhan, and Shunyu Yao. Fireact: Toward language agent fine-tuning. arXiv preprint arXiv:2310.05915, 2023.
  • Chung et al. (2022) Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416, 2022.
  • Cobbe et al. (2021) ”Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training Verifiers to Solve Math Word Problems. arXiv, 2021. _eprint: 2110.14168.
  • Gandhi et al. (2023) Kanishk Gandhi, Dorsa Sadigh, and Noah D Goodman. Strategic reasoning with language models. arXiv preprint arXiv:2305.19165, 2023.
  • Geva et al. (2019) Mor Geva, Yoav Goldberg, and Jonathan Berant. Are we modeling the task or the annotator? an investigation of annotator bias in natural language understanding datasets. arXiv preprint arXiv:1908.07898, 2019.
  • Goyal et al. (2023) Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, and Vaishnavh Nagarajan. Think before you speak: Training language models with pause tokens. arXiv preprint arXiv:2310.02226, 2023.
  • Gulcehre et al. (2023) Caglar Gulcehre, Tom Le Paine, Srivatsan Srinivasan, Ksenia Konyushkova, Lotte Weerts, Abhishek Sharma, Aditya Siddhant, Alex Ahern, Miaosen Wang, Chenjie Gu, et al. Reinforced self-training (rest) for language modeling. arXiv preprint arXiv:2308.08998, 2023.
  • Gunasekar et al. (2023) Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, et al. Textbooks are all you need. arXiv preprint arXiv:2306.11644, 2023.
  • Haluptzok et al. (2023) Patrick Haluptzok, Matthew Bowers, and Adam Tauman Kalai. Language models can teach themselves to program better. In The Eleventh International Conference on Learning Representations, 2023. URL https://openreview.net/forum?id=SaRj2ka1XZ3.
  • Hewitt et al. (2023) John Hewitt, John Thickstun, Christopher D Manning, and Percy Liang. Backpack language models. arXiv preprint arXiv:2305.16765, 2023.
  • Ho et al. (2022) Namgyu Ho, Laura Schmid, and Se-Young Yun. Large language models are reasoning teachers. arXiv preprint arXiv:2212.10071, 2022.
  • Hoffman et al. (2024) Matthew Douglas Hoffman, Du Phan, David Dohan, Sholto Douglas, Tuan Anh Le, Aaron Parisi, Pavel Sountsov, Charles Sutton, Sharad Vikram, and Rif A Saurous. Training chain-of-thought via latent-variable inference. Advances in Neural Information Processing Systems, 36, 2024.
  • Hosseini et al. (2024) Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron Courville, Alessandro Sordoni, and Rishabh Agarwal. V-star: Training verifiers for self-taught reasoners. arXiv preprint arXiv:2402.06457, 2024.
  • Hsieh et al. (2023) Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, and Tomas Pfister. Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. arXiv preprint arXiv:2305.02301, 2023.
  • Huang et al. (2022) Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, and Jiawei Han. Large language models can self-improve. arXiv preprint arXiv:2210.11610, 2022.
  • Jang et al. (2016) Eric Jang, Shixiang Gu, and Ben Poole. Categorical reparameterization with gumbel-softmax. arXiv preprint arXiv:1611.01144, 2016.
  • Jiang et al. (2023) Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.
  • Jung & Kim (2023) Hoyoun Jung and Kyung-Joong Kim. Discrete prompt compression with reinforcement learning. arXiv preprint arXiv:2308.08758, 2023.
  • Khattab et al. (2022) Omar Khattab, Keshav Santhanam, Xiang Lisa Li, David Hall, Percy Liang, Christopher Potts, and Matei Zaharia. Demonstrate-search-predict: Composing retrieval and language models for knowledge-intensive nlp. arXiv preprint arXiv:2212.14024, 2022.
  • Khattab et al. (2023) Omar Khattab, Arnav Singhvi, Paridhi Maheshwari, Zhiyuan Zhang, Keshav Santhanam, Sri Vardhamanan, Saiful Haq, Ashutosh Sharma, Thomas T Joshi, Hanna Moazam, et al. Dspy: Compiling declarative language model calls into self-improving pipelines. arXiv preprint arXiv:2310.03714, 2023.
  • Kojima et al. (2022) Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large Language Models are Zero-Shot Reasoners, 2022. URL https://arxiv.org/abs/2205.11916.
  • Lampinen et al. (2022) Andrew K Lampinen, Ishita Dasgupta, Stephanie CY Chan, Kory Matthewson, Michael Henry Tessler, Antonia Creswell, James L McClelland, Jane X Wang, and Felix Hill. Can language models learn from explanations in context? arXiv preprint arXiv:2204.02329, 2022.
  • Lanchantin et al. (2024) Jack Lanchantin, Shubham Toshniwal, Jason Weston, Sainbayar Sukhbaatar, et al. Learning to reason and memorize with self-notes. Advances in Neural Information Processing Systems, 36, 2024.
  • Lester et al. (2021) Brian Lester, Rami Al-Rfou, and Noah Constant. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691, 2021.
  • Lewkowycz et al. (2022) Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, et al. Solving quantitative reasoning problems with language models. Advances in Neural Information Processing Systems, 35:3843–3857, 2022.
  • Li et al. (2024) Michael Y Li, Emily B Fox, and Noah D Goodman. Automated statistical model discovery with language models. arXiv preprint arXiv:2402.17879, 2024.
  • Li et al. (2022) Shiyang Li, Jianshu Chen, Yelong Shen, Zhiyu Chen, Xinlu Zhang, Zekun Li, Hong Wang, Jing Qian, Baolin Peng, Yi Mao, et al. Explanations from large language models make small reasoners better. arXiv preprint arXiv:2210.06726, 2022.
  • Li & Liang (2021) Xiang Lisa Li and Percy Liang. Prefix-tuning: Optimizing continuous prompts for generation. arXiv preprint arXiv:2101.00190, 2021.
  • Li et al. (2023) Yucheng Li, Bo Dong, Chenghua Lin, and Frank Guerin. Compressing context to enhance inference efficiency of large language models. arXiv preprint arXiv:2310.06201, 2023.
  • Liu et al. (2023) Jiacheng Liu, Ramakanth Pasunuru, Hannaneh Hajishirzi, Yejin Choi, and Asli Celikyilmaz. Crystal: Introspective reasoners reinforced with self-feedback. arXiv preprint arXiv:2310.04921, 2023.
  • Luo et al. (2023) Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, and Dongmei Zhang. Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct. arXiv preprint arXiv:2308.09583, 2023.
  • Madaan et al. (2023) Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, et al. Self-refine: Iterative refinement with self. Feedback, 2023.
  • Mnih et al. (2013) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller. Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602, 2013.
  • Mnih et al. (2016) Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In International conference on machine learning, pp.  1928–1937. PMLR, 2016.
  • Mu et al. (2024) Jesse Mu, Xiang Li, and Noah Goodman. Learning to compress prompts with gist tokens. Advances in Neural Information Processing Systems, 36, 2024.
  • Nye et al. (2021) Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, et al. Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114, 2021.
  • Pan et al. (2024) Alexander Pan, Erik Jones, Meena Jagadeesan, and Jacob Steinhardt. Feedback loops with language models drive in-context reward hacking. arXiv preprint arXiv:2402.06627, 2024.
  • Paster et al. (2023) Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, and Jimmy Ba. Openwebmath: An open dataset of high-quality mathematical web text. arXiv preprint arXiv:2310.06786, 2023.
  • Phan et al. (2023) Du Phan, Matthew Douglas Hoffman, Sholto Douglas, Tuan Anh Le, Aaron T Parisi, Pavel Sountsov, Charles Sutton, Sharad Vikram, Rif A Saurous, et al. Training chain-of-thought via latent-variable inference. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.
  • Poesia et al. (2023) Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, and Noah D Goodman. Certified reasoning with language models. arXiv preprint arXiv:2306.04031, 2023.
  • Polu & Sutskever (2020) Stanislas Polu and Ilya Sutskever. Generative Language Modeling for Automated Theorem Proving. CoRR, abs/2009.03393, 2020. URL https://arxiv.org/abs/2009.03393. _eprint: 2009.03393.
  • Prystawski et al. (2024) Ben Prystawski, Michael Li, and Noah Goodman. Why think step by step? reasoning emerges from the locality of experience. Advances in Neural Information Processing Systems, 36, 2024.
  • Qiao et al. (2024) Shuofei Qiao, Ningyu Zhang, Runnan Fang, Yujie Luo, Wangchunshu Zhou, Yuchen Eleanor Jiang, Chengfei Lv, and Huajun Chen. Autoact: Automatic agent learning from scratch via self-planning. arXiv preprint arXiv:2401.05268, 2024.
  • Qiu et al. (2023) Linlu Qiu, Liwei Jiang, Ximing Lu, Melanie Sclar, Valentina Pyatkin, Chandra Bhagavatula, Bailin Wang, Yoon Kim, Yejin Choi, Nouha Dziri, et al. Phenomenal yet puzzling: Testing inductive reasoning capabilities of language models with hypothesis refinement. arXiv preprint arXiv:2310.08559, 2023.
  • Radford et al. (2019) Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.
  • Raffel et al. (2020) Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21(140):1–67, 2020.
  • Rajani et al. (2019) Nazneen Fatema Rajani, Bryan McCann, Caiming Xiong, and Richard Socher. Explain yourself! leveraging language models for commonsense reasoning. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pp.  4932–4942, 2019.
  • Schick et al. (2024) Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Eric Hambro, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. Toolformer: Language models can teach themselves to use tools. Advances in Neural Information Processing Systems, 36, 2024.
  • Schulman et al. (2017) John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
  • Schuster et al. (2021) Tal Schuster, Ashwin Kalyan, Alex Polozov, and Adam Tauman Kalai. Programming Puzzles. In Thirty-fifth Conference on Neural Information Processing Systems, 2021. URL https://openreview.net/forum?id=fe_hCc4RBrg.
  • Shinn et al. (2023) Noah Shinn, Federico Cassano, Beck Labash, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao. Reflexion: Language agents with verbal reinforcement learning. arXiv preprint arXiv:2303.11366, 2023.
  • Shwartz et al. (2020) Vered Shwartz, Peter West, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. Unsupervised commonsense question answering with self-talk. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp.  4615–4629, 2020.
  • Silver et al. (2017) David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, et al. Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815, 2017.
  • Talmor et al. (2018) Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. Commonsenseqa: A question answering challenge targeting commonsense knowledge. arXiv preprint arXiv:1811.00937, 2018.
  • Todd et al. (2023) Eric Todd, Millicent L Li, Arnab Sen Sharma, Aaron Mueller, Byron C Wallace, and David Bau. Function vectors in large language models. arXiv preprint arXiv:2310.15213, 2023.
  • Uesato et al. (2022) Jonathan Uesato, Nate Kushman, Ramana Kumar, Francis Song, Noah Siegel, Lisa Wang, Antonia Creswell, Geoffrey Irving, and Irina Higgins. Solving math word problems with process-and outcome-based feedback. Neural Information Processing Systems (NeurIPS 2022) Workshop on MATH-AI, 2022.
  • Wang et al. (2023) Ruocheng Wang, Eric Zelikman, Gabriel Poesia, Yewen Pu, Nick Haber, and Noah D Goodman. Hypothesis search: Inductive reasoning with language models. arXiv preprint arXiv:2309.05660, 2023.
  • Wang & Zhou (2024) Xuezhi Wang and Denny Zhou. Chain-of-thought reasoning without prompting. arXiv preprint arXiv:2402.10200, 2024.
  • Weber et al. (2021) Lucas Weber, Jaap Jumelet, Elia Bruni, and Dieuwke Hupkes. Language modelling as a multi-task problem. arXiv preprint arXiv:2101.11287, 2021.
  • Wei et al. (2021a) Jason Wei, Maarten Bosma, Vincent Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M Dai, and Quoc V Le. Finetuned language models are zero-shot learners. In International Conference on Learning Representations, 2021a.
  • Wei et al. (2021b) Jason Wei, Maarten Bosma, Vincent Y Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M Dai, and Quoc V Le. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652, 2021b.
  • Wei et al. (2022a) Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, and William Fedus. Emergent Abilities of Large Language Models, October 2022a. URL http://arxiv.org/abs/2206.07682. arXiv:2206.07682 [cs].
  • Wei et al. (2022b) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou. Chain of Thought Prompting Elicits Reasoning in Large Language Models, 2022b. URL https://arxiv.org/abs/2201.11903.
  • Williams (1992) Ronald J Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine learning, 8:229–256, 1992.
  • Yao et al. (2022) Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. React: Synergizing reasoning and acting in language models. International Conference on Learning Representations (ICLR 2023), 2022.
  • Zelikman et al. (2022) Eric Zelikman, Yuhuai Wu, Jesse Mu, and Noah Goodman. Star: Bootstrapping reasoning with reasoning. Advances in Neural Information Processing Systems, 35:15476–15488, 2022.
  • Zelikman et al. (2023a) Eric Zelikman, Qian Huang, Gabriel Poesia, Noah D. Goodman, and Nick Haber. Parsel: Algorithmic reasoning with language models by composing decompositions, 2023a.
  • Zelikman et al. (2023b) Eric Zelikman, Eliana Lorch, Lester Mackey, and Adam Tauman Kalai. Self-taught optimizer (stop): Recursively self-improving code generation. arXiv preprint arXiv:2310.02304, 2023b.
  • Zhang & Parkes (2023) Hugh Zhang and David C Parkes. Chain-of-thought reasoning is a policy improvement operator. arXiv preprint arXiv:2309.08589, 2023.
  • Zhang et al. (2024) Tianjun Zhang, Aman Madaan, Luyu Gao, Steven Zheng, Swaroop Mishra, Yiming Yang, Niket Tandon, and Uri Alon. In-context principle learning from mistakes. arXiv preprint arXiv:2402.05403, 2024.
  • Zhang et al. (2022) Zhuosheng Zhang, Aston Zhang, Mu Li, and Alex Smola. Automatic chain of thought prompting in large language models. arXiv preprint arXiv:2210.03493, 2022.
  • Zhao et al. (2023) Wenting Zhao, Justin T Chiu, Claire Cardie, and Alexander M Rush. Hop, union, generate: Explainable multi-hop reasoning without rationale supervision. arXiv preprint arXiv:2305.14237, 2023.
  • Zhou et al. (2022) Hattie Zhou, Azade Nova, Hugo Larochelle, Aaron Courville, Behnam Neyshabur, and Hanie Sedghi. Teaching algorithmic reasoning via in-context learning. arXiv preprint arXiv:2211.09066, 2022.
  • Zhu et al. (2023) Zhaocheng Zhu, Yuan Xue, Xinyun Chen, Denny Zhou, Jian Tang, Dale Schuurmans, and Hanjun Dai. Large language models can learn rules. arXiv preprint arXiv:2310.07064, 2023.

附录

附录 A超参数选择

优化与评估

为了优化,我们使用 AdamW 优化器,预热 20 步,学习率为 1e6,权重衰减为 0.001,批次大小为 8(以及任何必要的梯度累积,以确保跨运行保持不变)。 此外,我们的 <|startofthought|><|endofthought|> 嵌入梯度权重为 1e2,我们的策略权重为 1e6 我们在训练期间使用温度 T=1 进行采样,并在评估期间对想法使用贪婪解码。 我们通过计算温度 T=3 下的增强损失将样本视为重要样本。 由于我们没有用任何示例提示模型,我们直接计算了正确答案的概率,该概率以生成答案为条件——例如,对于 AE 之间的多个选择问题,我们计算了与 AE 相对应的符元的对数的准确性。 最后,对于我们的训练,我们从每个样本中随机选择 256 个标记(如果标记少于 256 个,则选择填充)。

搅拌头

对于我们的混合头,我们使用带有 ReLU 激活的三层 MLP,接收语言模型隐藏状态大小两倍的向量(当我们连接两个预测以确定它们的权重时),并输出一个标量。 这个标量用于对来自 LM 头部的 logits 进行加权,无论是否考虑从给定的词符进行预测。

计算

我们在由 8 个 80GB H100 组成的单个节点上训练所有模型。

附录 B更快的并行采样

在本节中,我们重点介绍一些进一步加速并行生成算法的简单方法。 例如,请注意,可以通过简单地将对角注意力计算为元素(而不是成对)点积来减少注意力的内存成本。 也就是说,给定形状 (b,t,l,d)(b,1,l,d) 的两个输入嵌入序列,其中 t 是前面的时间步数,b 是批量大小,l是序列长度,d是嵌入维度,我们不需要计算它们的成对形状(b,t,l,l)的注意力,我们只需要计算注意力对于沿着形状 (b,t,l) 的对角线的成对元素。 此外,为了避免为所有标记生成延续(例如,如果想要应用价值函数来确定思想在哪里最有用),可以索引到这个生成的注意掩码。 然而值得注意的是,这还需要在前向传递期间操纵其他输入,例如位置嵌入。

附录 C计算调整图

Refer to caption
(一)GSM8K
Refer to caption
(b) 常识问答
图6: 计算标准化泛化结果 我们可视化根据所使用的推理调用数量标准化的性能曲线。

我们还将图 2 可视化,其中我们通过用于训练的思考和谈话符元的数量进行标准化。

附录 D 衡量每个序列的多个想法和前面的多个 Token 的影响

我们在 12-thought-token-4-ahead 基线上执行简单的消融,即询问是否有必要对每个序列采样多个想法。 我们发现,虽然简单地将奖励计算为有思想和没有思想的损失之间的差异被证明是一个强大的基线,但使用多种思想始终优于它(在 GSM8K 泛化上大约提高 0.5%,在 CommonsenseQA 泛化上提高 3%)。 然而,确切的想法数量几乎没有影响:每个序列 2、3 和 4 个想法之间的变化似乎会导致与额外想法的一致改进,但每个序列超过两个的额外想法仅将性能提高了 0.1-0.3% GSM8K 和 CommonsenseQA。 同样,我们发现,在 GSM8K 上预测超过 1 个词符可以帮助提高 0.3%,在 CommonsenseQA 上可以提高 3.1%,但是对于 12 个思想标记,我们没有发现前面的额外标记(超过 2 个)可以提高性能。 然而,从定性上来说,我们发现在监管之前添加额外 Token 的基本原理似乎更加一致。 这表明在未来的工作中需要对发电质量进行更具体的评估。

附录E基本原理-增强基本原理

因为语言模型可以在任何地方插入思想,所以我们进行了初级知识研究,研究语言模型在访问内部原理时生成的推理,同时生成外部原理(即思想链)来解决问题。 因为这些思想链本身是由思想链产生的,所以人们可以将其称为思想网(或 NoT)。 我们将模型的五个解决方案与 GSM8K 中的固定随机问题进行比较,查看基础 Mistral 7B 的输出,Mistral 的输出在 OpenWebMath (Paster 等人,2023)< 上针对相同步数进行微调/t0>,以及我们最佳 Quiet-STAR 模型的基本原理。 我们在温度 t=1 下直接对所有这些样本进行采样。

E.1 基地米斯特拉尔 7B

第一反应:

A: 's 思考步骤0>按1>2>步骤3>。4> 多少 很多 新鲜 鸡蛋 保留 之后0> 1>2> 3>三个4> 5>她6> 7>吃8> 9> 0> 1>早餐2> 3>和4> 5>四份6> 7>进入8> 9>进入0> 1>2> 3>松饼4> 5>混合6> 7>用于8> 9> 她0>1>朋友2>。3> 我们可以计算 16-3-4。0> 金额 等于 9新鲜鸡蛋0>。1> 所以, 美元 美元 制作 0>每天1> 2>等于3> 4>什么5> 6>乘以7> 8>乘以9> 0>$21>。2> 12x2。 答案 $24.

第二个回应:

:珍妮特's 鸭子产蛋0>161>2>鸡蛋3>4>每5>6>天7>。8> 吃了三个 /t6> 早餐 每天0> 1>早上2> 3>和4> 5>烘烤6> 7>松饼8> 9> 为了0>1>她2>3>朋友4>5>每个6> 7>天8> 9>与0> 1>四2>.3> 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0> 多少 多少 美元 美元她0>1>做2> 3>每天4> 5>日6> 7>在8> 9> 0>1>农民2>'3>4>市场5>? 6>
A: 's 思考步骤0>按1>2>步骤3>。4> 吃饭 3 每天早餐0>。1> 每天 烘焙 4 松饼 的朋友们. 离开9。 出售 9 \(2\), 所以0> 1>\( 9\2>次3> 4>2=\5>$186>\)。7> 所以 珍妮特 每天 通过 出售 鸭蛋 赚取 18 美元.
66. Janet 卖出 平均120>1>新鲜2> 3>鸭4> 5>鸡蛋6> 7>每日8> 9> 对0>1>2>3>农民4>'5> 6>市场7>。8> 如果 出售 他们 对于 $20> 1>每2> 3>鸡蛋4> 5>如何6> 7>很多8> 9> 做0>1>她2>3>做4>5>每6> 7>周8>,9> 0>假设1> 2>她3>4>出售5>6>在7>8>9> 0>农民1>'2> 3>市场4> 5>大部分6> 7>每天8> 9>天0>?1>A2> :3> 4>如果5> 6>珍妮特7> 8>出售9> 0>上1> 2>平均3> 4>125> 6>新鲜7> 8>鸭9> 0>鸡蛋1> 2> 每天3>4>在5>6>农民7>8> /t79>'0> 1>市场2>。3> 等于 \(12\ 0>7\),1> 2>所以3> 4>125> 6>\(\7>次8>\)9> 0>71> 2>=\(84\)。3> 总计 金额 然后0> 1>制作2> 3>会4> 5>是6> 7>\(84\8>次9> 0>2\)1> 2>美元3>,4> 5>或6> 7>1688> 9>每0> 1>周2>。3> 所以 珍妮特 每周 通过 出售 鸭蛋 赚取 168 美元.

第三个回应:

:珍妮特's 鸭子产蛋0>161>2>鸡蛋3>4>每5>6>天7>。8> 吃了三个 /t6> 早餐 每天0> 1>早上2> 3>和4> 5>烘烤6> 7>松饼8> 9> 为了0>1>她2>3>朋友4>5>每个6> 7>天8> 9>与0> 1>四2>.3> 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0> 多少 多少 美元 美元她0>1>做2> 3>每天4> 5>日6> 7>在8> 9> 0>1>农民2>'3>4>市场5>? 6>
A: 's 思考步骤0>按1>2>步骤3>。4>
如何 许多 鸡蛋 如何已经0>1>左2> 3>每天4> 5>每天6>?7>
重要因为会0>1>帮助2> 3>我们4> 5>找到6> 7>如何8> 9> 很多0> 1>鸡蛋2> 3>她4> 5>卖6>7>每8>9>日0>。1>
我们可以做什么 我们可以 我们 做什么 回答0> 1>2> 3>问题4>?5>
如果 我们 关系 之间的关系0> 1>如何2> 3>很多4> 5>鸭子6> 7>鸡蛋8> 9> 珍妮特0> 1>已经2> 3>左4>,5> 6>如何7> 8>很多9> 0>她1> 2>吃3>、4> 5>和6> 7>如何8> 9>很多0>1>她2>3>烘焙4>5> 6>7>8>9>松饼0>,1>2>那么3>4>我们5>6>可以7>8>看到9> 0>如何1> 2>很多3> 4>鸡蛋5> 6>她7>8>已经9>0>左1>2>至3> 4>卖出5> 6>于7> 8> t79>0>农民1>'2>3>市场4>。5>
's 方程 求解0> 1>求解2> 3>我们的4> 5>困境6>。7>
减去 一个 方程 鸡蛋 吃掉0> 1>和2> 3>一个4> 5>方程6> 7>对于8> 9> 鸡蛋0> 1>烤2> 3>到4> 5>找到6> 7>剩余8> 9>鸡蛋0> 1>剩余2>.3> 's看看什么我们可以0>1>找到2>.3>
我们可以看到 珍妮特 有0> 1>62> 3>鸡蛋4> 5>剩下的6> 7>每个8> 9> 日0>。1> $6\\$2 = \$12$ 0>每1> 2>天3>。4> 因此 Janet 收到 一个 额外 12 美元0> 1>每2> 3>一天4> 5>为6> 7>她8> 9> 鸡蛋0> 1>在2> 3>4> 5>农民6>'7>s8>9>市场0>。1>
记住,这个 只是 为了 0>一个1> 2>日3>,4> 5>所以6> 7>现在8> 9>她0> 1>收入2> 3>12美元4> 5> 6> 7>日8> 9>中0> 1>额外2> 3>收入4>,5> 6>因为7> 8>她9> 0>卖1> 2>她3> 4>鸡蛋5> 6>在7>8>9>0>农民1>'2> 秒3> 4>市场5> 6>每个7> 8>日9>.0>
#### 答案
12 美元

第四个回应:

Q: 珍妮特s 鸭子 每天 16 . 吃了三个 /t6> 早餐 每天0> 1>早上2> 3>和4> 5>烘烤6> 7>松饼8> 9> 为了0>1>她2>3>朋友4>5>每个6> 7>天8> 9>与0> 1>四2>.3> 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0> 多少 多少 美元 美元她0>1>做2> 3>每天4> 5>日6> 7>在8> 9> 0>1>农民2>'3>4>市场5>? 6>
A: 's 思考步骤0>按1>2>步骤3>。4> 首先,想要 查找 0>出1> 2>3> 4>数量5> 6>鸡蛋7> 8>鸡蛋9> 0>a1> 2>总计3> 4>5> 6>珍妮特7> 8>收集9> 0>每个1> 2>日3>。4> 这个 很多 美元 一个 三个0> 1>和2> 3>减去4> 5>从6> 7>8> 9> 钱0> 1>她2> 3>得到4> 5>每6> 7>鸡蛋8>,9> 0>哪个1> 2>是3>4>$25>。6> 答案 问题 是0> 1>$52>.3>

第五反应

: 珍妮特s 鸭子 每天 16 鸡蛋. 每天 早上 三个 鸡蛋 作为 早餐 四个 鸡蛋 的朋友们 烘焙 松饼. 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0> 多少 多少 美元 美元她0>1>做2> 3>每天4> 5>日6> 7>在8> 9> 0>1>农民2>'3>4>市场5>? 6>
A: 's 思考步骤0>按1>2>步骤3>。4>
对于第一个步骤,'0>s1>2>想想3>4>5>6>那天7>8>一天9>0>作为1>2>a3>4>整体5> ,6> 7>使用8> 9>一些0> 1>变量2> 3>前往4> 5>保留6> 7>追踪8> 9>0> 1>2> 3>数字4> 5> 6>7>鸡蛋8>。9> $n$ = 数量 0> 1>鸡蛋2> 3>那4> 5>珍妮特6>'7>是8> 9>鸭子0> 1>产蛋2> 3>每4> 5>日6>。7> 然后 数量 鸡蛋 那个0> 1>她2> 3>吃4> 5>每6> 7>天8> 9> 将0> 1>为2> 3>$4>(3)5>$6>7>=8>9>。0>
接下来, $m$ = 松饼. 对于 每个 松饼, 使用 0>$4$1> 2>=3>4>鸡蛋5>,6>7>所以8>9>我们0>1>可以2>3>采取4>5>来自6> 7>8> 9>鸡蛋0> 1>珍妮特2> '3>s4> 5>鸭子6> 7>躺着8> 9>至0> 1>代表2> 3>4> 5>数量6> 7>她8> 9>使用0>:1> 2>$43>(4>米5>)6>$7>=。8> 现在, 得到 返回 0>到1> 2>我们的3> 4>开始5> 6>数量7> 8>9> 0>鸡蛋1>,2> 3>我们4> 5>需要6> 7>到8> 9>添加0> 1>这些2> 3>鸡蛋4> 5>回来6> 7>上8>,9>0>给予1>2>我们3>4>。5> 鸡蛋 珍妮特 日0>1>带来2> 3>她4> 5>$2$$6>(7>n8>) 9>$0>1>=2>3>$4>。5> 我们 带到 我们的 下一步0> 1>步骤2>.3>
现在 我们 所有 鸡蛋 我们 开始 数字, $n$ =, 分解 我们 之前 设定 部分. 对于开始数字,我们0>有1>:2> 3>这4> 5>带来6> 7>我们8> 9>返回0> 1>到2> 3>我们的4> 5>出发6> 7>数字8>、9> 0>和1> 2>我们3>4>可以5>6>简化7>8>这个9>0>表达式1>。2>
移动 移动 顶部 至0> 1>2> 3>第二4> 5>行6>,7> 8>我们9> 0>乘以1> 2>数字3> 4>数字5> 6>内7> 8>每个9> 0>括号1> 2>组3>。4> 移动 第二个 至0> 1>2> 3>第三4>5>行6>,7>8>我们9> 0>添加1> 2>3> 4>产品5> 6>一起7> 8>到9> 0>寻找1> 2>3>4>总计5>。6> 最后, 我们 可以 分配 确定 最终 乘积: $= 360.$
所以 总计 数字 鸡蛋0> 1>那个2> 3>珍妮特4>'5>s6> 7>鸭子8> 9>躺0> 1>每2> 3>天4> 5>是6> 7>$3608>。9>$0> 1>自2> 3>珍妮特4> 5>出售6> 7>每个8> 9>蛋0>1>她2>3>有4>5> 6> 7>$28>,9>$0> 1>她2> 3>总计4> 5>收益6> 7>于8> 9>0>1>农民2>'3>4>市场5> 6>是7>:8> 9>$0>\1>盒装2>{\3>$4> 5>720}。6>$7>

E.2 经过 OpenWebMath 训练的 Mistral 7B

第一反应:

<s> : 珍妮特 鸭子 每天 16 鸡蛋. 吃了三个 /t6> 早餐 每天0> 1>早上2> 3>和4> 5>烘烤6> 7>松饼8> 9> 为了0>1>她2>3>朋友4>5>每个6> 7>天8> 9>与0> 1>四2>.3> 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0> 多少 多少
美元 制作 每隔0> 1>日2> 3>在4> 5>6> 7>农民8>'9> 0>市场1>?2>
A: 's 思考步骤0>按1>2>步骤3>。4> 如何 很多 她做 制作 每隔0> 1>日2>?3> 每个 问题 问题, 那个 0>是1> 2>$23> 4>每5> 6>一个7> 8>鸭子9>0>鸡蛋1>。2> 现在, 怎么样 很多 鸡蛋 0>每个1> 2>天3>4>她5>6>她7>8>卖出9>?0> ,那个' 16 减去 0>1> 2>鸡蛋3> 4>她5> 6>吃7> 8>减9>0>1>2>鸡蛋3>4>她5> 6>使用7> 8>到9> 0>ma1>
ke松饼
3 鸡蛋 每天 早上0>,1> 2>所以3>4>16美元5>-36>7>=8>9>130>$1>。2>
制作 4 松饼, 其中 0>使用1> 2>43>4>鸡蛋5>。6> 16美元-3-4=5$
因此, 数字 鸭子 0>鸡蛋1> 2>她3> 4>是5> 6>销售7> 8>是9> 0>$5$1>。2>
显然, 1 鸭子 鸡蛋 成本 0>2美元1>。2> Therefore, the total amount she makes selling the eggs is $10$ $2. Now, this can be written as a fraction as, "ten two-dollars," so $10 2 - bucks.$
转换 a 分数 0>"1>a2> 3>第十4> 5>共6> 7>十8>,"9> 0>所以1> 2>10美元3> 4>25> 6>-7> 8>美元9> 0>=1> 2>$1$3> 4>$105> 6>-7> 8>美元$9>
[透露-答案 q ="fs-id1165135856725"]0>显示1> 2>解决方案3>[/4>揭晓5>-6>答案7>]8>
[隐藏-答案 a =“fs-id1165135856725”]0>

第二个回应:

<s>: 珍妮特's0>鸭子1>2> 下蛋3> 4>165> 6>鸡蛋7> 8>每9>0>日1>。2> 吃了三个 /t6> 早餐 每天0> 1>早上2> 3>和4> 5>烘烤6> 7>松饼8> 9> 为了0>1>她2>3>朋友4>5>每个6> 7>天8> 9>与0> 1>四2>.3> 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0> 多少 多少 美元 美元她0>1>做2> 3>每天4> 5>日6> 7>在8> 9> 0>1>农民2>'3>4>市场5>? 6>
A: 's 思考步骤0>按1>2>步骤3>。4> 基于什么基础可以 我们 回答0> 1>2> 3>问题4> 5>提出6> 7>考虑8> 9> 问题0>1>问题2>?3> 我们做什么 做什么 我们 知道 给定 和0> 1>如何2> 3>可以4> 5>我们6> 7>使用8> 9> 什么0> 1>我们2>'3>给予4>5> 6> 7>至8> 9>抵达0> 1>于2> 3>一个4> 5>回答6>。7> 3 给定, 4 给定, 16 给定, 是否 任何人 任何 想法?
A: 16 3 0>减1> 2>43> 4>等于5> 6>9,7> 8>并且9> 0>然后1> 2>我3> 4>减去5> 6>17> 8>来自9> 0>91> 2>并且3> 4>那5> 6>是7> 8>49> 0>额外1> 2>所以3> 4>五5> 6>更多7>8>鸡蛋9>。0>
M:还有我们知道那个0>21>2>次3> 4>55> 6>是7> 8>如何9> 0>很多1>?2>
A:
M: .
A:如果 3 0>鸭子1> 2>鸡蛋3> 4>早餐5> 6>早餐7>,8> 9>在0> 1>2> 3>早上4> 5>等于6> 7>\(38> 9>\0>次1> 2>23> 4>=5> 6>6\)。7> 如果 4 鸡蛋 烘焙 松饼 为了 朋友 等于 \(4 \乘以 2 = 8\), 所以 总计 得到 $6 加上 $8 等于 14. 权重 增益 5 因为0> 1>它2> 3>是4> 5>56> 7>是8> 9> 那0> 1>什么2> 3>你4> 5>放6> 7>向上8> 9>那里0> 1>所以2> 3>54> 5>次6> 7>28> 9> 鸭子0> 1>和2> 3>减去4> 5>6> 7>来自8> 9>那个0> 1>来自2> 3>164> 5>和6> 7>你8> 9> 得到0> 1>72> 3>没有4> 5>什么6> 7>我们写了8> 9>我们0> 1>写了2> 3>向下4>?5> 能够 出0> 1>现在2> 3>什么4> 5>问题6> 7>问题8> 9> 是0>、1> 2>和3> 4>什么5> 6>是7>8>什么9>0>1>2>问题3>4>真的5>6>是7>。8> 得到 14 体重 损失0> 1>你2>,3> 4>你5> 6>减去7> 8>那个9> 0>来自1> 2>163> 4>其中5> 6>等于7> 8>2,9> 0>$141> 2>减去3> 4>2,5> 6>余数7> 8>是9>0>什么1>?2>
A:12。
M: 问题 问题 什么 0>是1> 2>珍妮特3>´4>s5>6>鸭子7>8>躺着9>0>161>2>鸡蛋3>,4>5>她6> 7>吃8> 9>120> 1>2> 3>销售4>。5> 减去 3 4 减0> 1>52> 3>所以4> 5>56> 7>当8> 9> 你0>1>吃2>3>4>5>松饼6> 7>等于8> 9>5,0> 1>倍2> 3>两个4>,5> 6>7> 8>12,9> 0>减去1> 2>3> 4>钱5> 6>所以7> 8>59> 0>次1> 2> 2,3>4>$5>-126>$7>。8> 所以 \(2 \ 9 = 0>18\)1> 2>减去3>4>10美元5>,6>7>所以8> 9>40> 1>更多2> 3>鸡蛋4>...5> 仍然 $2, 总计 0>到1> 2>到3>4>20美元5>。6>
A: 明白 那里 0>1> 2>个3> 4>天5> 6>一个7> 8>39> 0>加1> 2>43> 4>吃5> 6>谁7> 8>制造9> 0>和1> 2> 所以3> 4>上5> 6>和7> 8>所以9>0>于1>。2>
M: 但是 也许 顺序 0>至1> 2>回答3>4>它5>6>正确7>8>你9>0>有1>2>要3>4>看看5>6>一个7>8>一点9>0>关闭1>。2> 通常 程序有0>1>2> 3>他们4> 5>给予6> 7>你8> 9> 首先0>,1> 2>我3>4>可以5> 6>告诉7> 8>你9> 0>如何1> 2>这里3>4>我们5>6>走7>。8>
:现在如果 增加0>1>2>16,3>4>现在5>6>你7>8>有9>0>1>2>你3>4>会5> 6>需要7> 8>9> 0>确定1> 2>163> 4>减5> 6>37> 8>减9> 0>41> 2>和3> 4>那个5> 6>添加7> 8>向上9> 0>到1> 2>3> 4>余数5>,6> 7>其中8> 9>是0>1>9。2> 然后 减去 1 然后但是你0>1>有2> 3>5.4> 下一个 答案 然后, 哪个 现在 5 乘以 2, 哪个 10.
M: 哪个 10美元, 然后 14, 哪个 剩余的
M: 6美元 8美元 总共 14美元, 现在 减去 2, 意味着 现在 16 减去 5, 哪个 11.
M: 下一个 事物 0>到1> 2>3> 4>产量5> 6>7> 8>9> 0>第二次1> 2>情况3> 4>你5> 6>有7> 8>有9> 0>161> 2>减3> 4>35> 6>加7> 8>49> 0>和1> 2>那个3> 4>来了5> 6>至7>8>9。9> 这个非常简单 执行0> 1>立即2> 3>偶4> 5>第6> 7>第一个8> 9> 部分0>、1> 2>16、3> 4>3、5> 6>47> 8>和9> 0>9,1> 2>并且3>4>您5>6>发生7>8> 9>0>知道1>2>生活是什么3>4>生活5>,6>7>和8>9>你0>1>只是2> 3>计数4> 5>和6> 7>你8> 9>有0> 1>五个2> 3>和4> 5>五6> 7>然后8> 9>走0> 1>前进2>。3> 5 2 10,0> 1>所以2> 3>$104> 5>然后6> 7>所以8> 9>其实0>1>你2>3>有4>5>只是6> 7>已添加8> 9>4.5,0> 1>现在2> 3>您的4> 5>总计6> 7>是8> 9>160>1>加上2>3>$24>。5> 但是现在这个 10美元0> 1>加上2> 3>$24> 5>是6> 7>$128>,9> 0>所以1> 2>如何3> 4>很多5> 6>您7> 8>出售9> 0>自1> 2>163> 4>和5> 6>然后7> 8>减去9> 0>121> 2>来3> 4>到5> 6>4.7>
M:那么什么 0>余数1> 2> 3> 4>165> 6>减7> 8>39> 0>加1> 2>43> 4>减5> 6>5?7> 事情 看到 三个 缺失0>。1> 四个 五个 鸡蛋 所以 5 2, 所以 10美元0> 1>剩余2> 3>在4> 5>10美元6>,7>8>所以9> 0>减少1>,2> 3>所以4> 5> 6> 7>发生了8> 9>现在0> 1>到2> 3>发生了什么4> 5>发生了6> 7>是8> 9>添加0> 1>并2> 3>减去4> 5> 6> 7>下一个8> 9>0> 1>问题2> 3>是4> 5>166> 7>减去8> 9>30> 1>加2> 3>4,4> 5>并且6>7>大概8>9>你0>'1>已经2> 3>完成4> 5>此6> 7>之前8> ,9>0>如果1>2>不3>4>那么5> 6>你7> 8>添加9> 0>向上1> 2>163> 4>减5> 6>37> 8>再加上9> 0>41> 2>给予3> 4>我们5> 6>97> 8>和9> 0>什么1> 2>是3> 4>余数5> 6>余数7> 8> 9> 0>5 之后?1> 那么 什么 5 2?0> 所以 10。 2, 3, 加上 2=50>1>,2> 3>和4> 5>所以6> 7>你的8> 9>回答0>1>所以2>3>远4>5>是6> 7>168> 9>减0> 1>32> 3>加上4> 5>4,6> 7>和8> 9>给予0>1>我们2>3>4>5>篮子6> 7>减去8> 9>20> 1>剩余2> 3>94> 5>和6> 7>现在8> 9>你0>1>有2>3>到4>5>确定6>7>现在8>9>什么0>1>是什么2> 3>4> 5>总计6> 7>8> 9>0> 1>第二个2> 3>部分4>?5>

第三个回应:

<s>: 珍妮特's0>鸭子1>2> 下蛋3> 4>165> 6>鸡蛋7> 8>每9>0>日1>。2> 吃了三个 /t6> 早餐 每天0> 1>早上2> 3>和4> 5>烘烤6> 7>松饼8> 9> 为了0>1>她2>3>朋友4>5>每个6> 7>天8> 9>与0> 1>四2>.3> 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0> 多少 多少 美元 美元她0>1>做2> 3>每天4> 5>日6> 7>在8> 9> 0>1>农民2>'3>4>市场5>? 6>
A: 's 思考步骤0>按1>2>步骤3>。4> 怎么样很多 单位 美元"0> 1>部分2> 3>意味着4> 5>那个6> 7>一个8> 9>鸡蛋0> 1>价值2> 3>价值4> 5>一个6> 7>美元8>。9> 所以, 十二个 鸭子 下蛋 16 0>鸡蛋1>,2> 3>这4> 5>意味着6> 7>那个8> 9>珍妮特0> 1>网2> 3>20美元4> 5>来自6> 7>销售8> 9>他们0>。1> 16美元 松饼 我们 40> 1>鸡蛋2>,3> 4>其中5> 6>网7> 8>我们9> 0>8 美元1>。2> 所以,我们付款 108 美元 用于 0>我们的1> 2>配料3>4>至5>6>制作7>8>169> 0>松饼1>。2> 因此, 我们 亏损 96 美元. 你好,女主角,我们已经要0>1>做2> 3>更好4> 5>比6>7>更好8>! t19> 查看平均值 's 我们 付款0> 1>52> 3>美元4> 5>对于6> 7>一个8> 9>鸡蛋0>。1> 现在, 12美元 我们的 产品 0>和1> 2>$53> 4>是5> 6>我们的7> 8>投资9>。0> 我们 净资产 12-5*12 = 24 美元

第四个回应:

<s>: 珍妮特's0>鸭子1>2> 下蛋3> 4>165> 6>鸡蛋7> 8>每9>0>日1>。2> 吃了三个 /t6> 早餐 每天0> 1>早上2> 3>和4> 5>烘烤6> 7>松饼8> 9> 为了0>1>她2>3>朋友4>5>每个6> 7>天8> 9>与0> 1>四2>.3> 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0> 多少 多少 美元 美元她0>1>做2> 3>每天4> 5>日6> 7>在8> 9> 0>1>农民2>'3>4>市场5>? 6>
A: 's 思考步骤0>按1>2>步骤3>。4> 首先,'s 鸭子产蛋0>161>2>鸡蛋3>4>每天5>。6> 所以 16 鸡蛋 星期一0>,1> 2>163> 4>星期二5>,6> 7>168> 9>周三0>、1> 2>163> 4>周四5> ,6> 7>168> 9>星期五0>,1> 2> 和3>4>所以5>6>上7>。8> 第二, 珍妮特 吃饭 3 0>1> 2>163>4>鸡蛋5>6>那个7>8>那个9> 0>鸭蛋1> 2>下午3> 4>日5> 6>吃7>8>早餐9>。0> 鸭子 鸡蛋0>、1> 2>不是3>4>她5>6>烘焙7>8>商品9> 0>(1>松饼2>)3> 4>或5> 6>其他7>8>食物9>。0> 因此, 吃饭 3 星期一,0> 1>32> 3>星期二4>、5> 6>37> 8>星期三9>,0> 1>32> 3>星期四4>,5> 6>和7>8>所以9>0>上1>。2> 第三,烘烤 0>首先1> 2>43> 4>不5>-6>吃7> 8>鸡蛋9>0>放入1>2>松饼3>。4> 因此$ 出售 剩余 120> 1>非2>-3>吃4>5>鸡蛋6>7>周一8>,9> 0>121> 2>星期二3>,4> 5>126> 7>星期三8>、9> 0>121> 2>星期四3>、4> 5>和6> 7>所以8> 9>于0>。1> 第四, 珍妮特 出售 鸭子 鸡蛋 0>星期一1>,2> 3>星期二4>、5> 6>星期三7>、8> 9>星期四0>、1> 2>星期五3> 4>于5> 6>7> 8>29> 0>每个1>。2> 第三, 吃饭 3 星期一,0> 1>32> 3>星期二4>、5> 6>37> 8>星期三9>,0> 1>32> 3>星期四4>,5> 6>星期五7> 8>于9> 0>1> 2> 农民3>'4>5>市场6>。7> 最后, 12 星期一,0> 1>122> 3>星期二4>、5> 6>127> 8>星期三9>,0> 1>122> 3>星期四4>,5> 6>和7> 8>所以9> 0>上1> 2> 3> 4>美元5> 6>每天7> 8>天9>0>在1>2>3>4>农民5>'6>7>市场8>。9> 下面的 工作表 下面 总结了 这些 步骤0>。1> 数字 形成 交点0> 1>2> 3>对应4> 5>行6> 7>和8> 9> 列0> 1>条款2> 3>将4> 5>为6> 7>8> 9>正确0> 1>答案2>.3> 产品 (3, J0>)1> 2> 术语3> 4>和5> 6>7> 8>(9>J0>,1> 2>8)3> 4>术语5> 6>是7> 8>1,150。9> 所以, 珍妮特 使得 1 美元,150 每0> 1>天2> !3>
(注意: 步骤 3 步骤0> 1>82> 3>是4> 5>重复6>,7> 8>但是9> 0>1> 2>(3,7)3> 4>术语5> 6>中7> 8>步骤9> 0>81> 2>是3> 4>不是5> 6>7> 8>相同9> 0>与1> 2>相同3> 4>(3,7 )5> 6>术语7> 8>在9> 0>步骤1> 2>3.3>4>)5>

第五反应

<s> : 珍妮特 鸭子 每天 16 鸡蛋. 吃了三个 /t6> 早餐 每天0> 1>早上2> 3>和4> 5>烘烤6> 7>松饼8> 9> 为了0>1>她2>3>朋友4>5>每个6> 7>天8> 9>与0> 1>四2>.3> 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0> 多少 多少 美元 美元她0>1>做2> 3>每天4> 5>日6> 7>在8> 9> 0>1>农民2>'3>4>市场5>? 6>
A: 's 思考步骤0>按1>2>步骤3>。4>
我们做什么 做什么 我们 知道?
- 珍妮特s 鸭子 每天 16 .
- 吃了 三个 早餐 早餐0> 1>每天2> 3>早上4> 5>和6> 7>烘烤8> 9> 松饼0> 1>给2> 3>她4> 5>朋友6> 7>每天8> 9>日0> 1>与2> 3>四个4>。5>
来自 这些 两个 事实, 我们 0>可以1> 2>结论3>4>至少5>6>7>8>9> 0>珍妮特1> 2>需要3> 4>在5> 6>至少7> 8>七个9> 0>鸡蛋1> 2>3> 4>消费5> 6>每7> 8>天9>。0>
还有做什么做什么我们 需要 到0> 1>找到2> 3>正是4>?5>
- 我们 需要 找到 如何0> 1>很多2> 3>单位4> 5>美元6> 7>珍妮特8> 9> 使0> 1>每天2> 3>日4> 5>于6>7>8>9>农民0>'1>2>市场3>。4>
's 方程 并0> 1>求解2> 3>它4> 5>到6> 7>查找8> 9>0>1>答案2>。3> 我们知道:
-\(16-3-4=9\)
所以 我们的 每日 利润 90> 1>次2> 3>$24>、5> 6>或7> 8>\(9\ 9>次0>\1>$22>=\3>$184>\) 5>
因此 利润 市场 于0> 1>a2> 3>给定4> 5>天6> 7>是8> 9> \(0>$181>\)。2>
答案: \($18\)。

E.3经过安静恒星训练的米斯特拉尔 7B

第一反应:

<s> Q: 珍妮特s 鸭子 每天 16 . 吃了三个 /t6> 早餐 每天0> 1>早上2> 3>和4> 5>烘烤6> 7>松饼8> 9> 为了0>1>她2>3>朋友4>5>每个6> 7>天8> 9>与0> 1>四2>.3> 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0> 多少 多少
美元 制作 每隔0> 1>日2> 3>在4> 5>6> 7>农民8>'9> 0>市场1>?2>
A: 's 思考步骤0>按1>2>步骤3>。4>
这些 鸭子 每天 16 .
这是 总计 数量 0> 1>鸡蛋2>.3>
3 鸡蛋 被吃 被吃0> 1>为2> 3>早餐4>。5>
这是 数字 鸡蛋0> 1>那个2> 3>被4> 5>吃6> 7>为了8> 9> 早餐0>。1>
4 鸡蛋 用于 用于0> 1>至2> 3>制作4>5>松饼6>。7>
这是 数字 鸡蛋0> 1>那个2> 3>用于4> 5>用于6> 7>至8> 9> 制作0>1>松饼2>。3>
16 - 3 - 4 =0> 1>92>
9 数字 鸡蛋0> 1>那个2> 3>已4> 5>已售6> 7>于8> 9> 0>1>农民2>'3>4>市场5>。 6>
9 鸡蛋 已售出0> 1>于2> 3>4>5>农民6>'7>8>市场9>。0>
2 美元
价格 每个 鸡蛋 是0> 1>$22>.3>
$2 \乘以 9 = 18$
18 总计 价格 0> 1>2> 3>鸡蛋4>。5>
总计 价格 鸡蛋0> 1>是2> 3>18 美元4>。5>

第二个回应:

A: 's 思考步骤0>按1>2>步骤3>。4>
1. 鸭子 鸭子 躺着 16 鸡蛋 每天0> 1>天2>.3>
2. 3 早餐 每天0> 1>早上2>.3>
3. 烘烤 松饼 朋友0> 1>每个2> 3>天4> 5>与6> 7>4。8>
4. 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0>
5. 数量 鸡蛋 出售0> 1>于2> 3>4>5>农民6>'7>8>市场9> 0>是1> 2>163> 4>-5> 6>37> 8>-9> 0>4.1>
6. 数量 鸡蛋 出售0> 1>于2> 3>4>5>农民6>'7>8>市场9> 0>是1> 2>163> 4>-5> 6>37> 8>-9> 0>4.1>
7. 数量 鸡蛋 出售0> 1>于2> 3>4>5>农民6>'7>8>市场9> 0>是1> 2>163> 4>-5> 6>37> 8>-9> 0>4.1>
8. 数量 鸡蛋 出售0> 1>于2> 3>4>5>农民6>'7>8>市场9> 0>是1> 2>163> 4>-5> 6>37> 8>-9> 0>4.1>
9. 数量 鸡蛋 出售0> 1>于2> 3>4>5>农民6>'7>8>市场9> 0>是1> 2>163> 4>-5> 6>37> 8>-9> 0>4.1>
10. 数量 鸡蛋 出售0> 1>于2> 3>4>5>农民6>'7>8>市场9> 0>是1> 2>163> 4>-5> 6>37> 8>-9> 0>4.1>
11. 数量

第三个回应:

<s>: 珍妮特's0>鸭子1>2> 下蛋3> 4>165> 6>鸡蛋7> 8>每9>0>日1>。2> 吃了三个 /t6> 早餐 每天0> 1>早上2> 3>和4> 5>烘烤6> 7>松饼8> 9> 为了0>1>她2>3>朋友4>5>每个6> 7>天8> 9>与0> 1>四2>.3> 出售 剩余 剩余0>1>农民2>'3> 4>市场5> 6>每日7> 8>9> 0>$21> 2>每3> 4>新鲜5> 6>鸭子7>8>鸡蛋9>。0> 多少 多少 美元 美元她0>1>做2> 3>每天4> 5>日6> 7>在8> 9> 0>1>农民2>'3>4>市场5>? 6>
A: 's 思考步骤0>按1>2>步骤3>。4>
鸭子 鸭子 躺着 16 鸡蛋 每天0> 1>天2>.3>
这是 总计 数量 0> 1>鸡蛋2>.3>
3 数字 鸡蛋0> 1>那个2> 3>珍妮特4> 5>吃饭6> 7>为了8> 9> 早餐0> 1>每天2> 3>早上4>。5>
4 数字 鸡蛋0> 1>那个2> 3>她4> 5>使用6> 7>在8> 9> 0> 1>松饼2> 3>那个4> 5>她6> 7>烘烤8> 9>为0> 1>她2> 3>朋友4>5>每天6>7>每天8>。9>
16 - 3 - 4 =0> 1>92>
9 数字 鸡蛋0> 1>那个2> 3>她4> 5>出售6> 7>于8> 9> 0> 1>农民2>'3> 4>市场5> 6>每天7> 8>用于9> 0>$21> 2>每个3> 4>新鲜5> 6>鸭7> 8>鸡蛋9>。0>
9$2=9 $2
=9$2
=9$2
=18
所以, 18 金额 0>中1> 2>美元3>4>那5>6>她7>8>赚9> 0>每天1> 2>日3> 4>于5> 6>7>8>农民9>'0>1>市场2>.3>
金额 单位 美元 她0> 1>让2> 3>每天4> 5>日6> 7>在8> 9> 0> 1>农民2>'3> 4>市场5> 6>是7> 8>18。9>
A:18s>

第四个回应:

A: 's 思考步骤0>按1>2>步骤3>。4>
数量 鸡蛋 那个 珍妮特0>'1>是2> 3>鸭子4> 5>产蛋6> 7>每8> 9>天0> 1>是2> 3>16。4>
其中这些, 3 0>为1> 2>早餐3>4>每天5>6>早上7>。8>
这是3。
其中这些, 烘烤 松饼 0>烘烤1> 2>她3>4>朋友5>6>和7>8>4。9>
这是4。
数量 鸡蛋 那个 是0> 1>向左2> 3>超过4> 5>是6> 7>168> 9> -0>1>32>3>-4>5>4。 6>
这是 16 -7.
这是9。
数量 鸡蛋 那个 她0> 1>卖2> 3>在4> 5>6> 7>农民8>'9> 0>市场1> 2>每日3> 4>对于5> 6>$27> 8>每个9> 0>鸡蛋1> 2>是3>4>9。5>
总计 美元 美元 她0> 1>让2> 3>每天4> 5>日6> 7>在8> 9> 0> 1>农民2>'3> 4>市场5> 6>是7> 8>99> 0>$21>。2>
这是92。
这是18。
总计 美元 美元 她0> 1>让2> 3>每天4> 5>日6> 7>在8> 9> 0> 1>农民2>'3> 4>市场5> 6>是7> 8>18。9>
A: 18

第五反应

A: 's 思考步骤0>按1>2>步骤3>。4>
鸭子 鸭子 躺着 16 鸡蛋 每天0> 1>天2>.3>
这是 总计 数量 0> 1>鸡蛋2>.3>
3 + 4 + 16 = 23
3 鸡蛋 吃掉 作为 早餐 每天 早晨.
4 鸡蛋 使用 制作0> 1>松饼2> 3>为了4> 5>她6> 7>朋友8> 9> 每天0>1>每天2>。3>
16 鸡蛋 已出售 已售出0>1>农民2>'3> 4>市场5> 6>7> 8>2 美元9>0>每个1>2>每个3>4>天5>。 6>
16 鸡蛋 已售出0> 1>于2> 3>4>5>农民6>'7>8>市场9> 0>是1> 2>3> 4>剩余5> 6>鸡蛋7>。8>
16 - 3 - 4 =0> 1>92>
9 鸡蛋 已出售 已售出0>1>农民2>'3> 4>市场5> 6>7> 8>2 美元9>0>每个1>2>每个3>4>天5>。 6>
9 (2) = 18
18 总计 美元0> 1>那个2> 3>她4> 5>做6> 7>每8> 9> 日0> 1>在2> 3>4> 5>农民6>'7>8>市场9>。0>
18 答案.
A:18

附录F关于学习推理的其他著作

为了完整起见,我们强调许多其他作品已经探索了教学语言模型的推理(通常使用类似于 STaR 或受 STaR 启发的算法),无论是从它们自己的基本原理,从与环境的交互,还是从手工构建的数据集。 例如,作品在多跳问答(Zhao等人,2023)、数学(Luo等人,2023;Uesato等人,2022)的背景下探索这一点,机器翻译(Gulcehre 等人,2023) 有几部作品研究了教授语言模型智能体在规划中进行推理(Chen 等人,2023;Gandhi 等人,2023;Qiao 等人,2024),或使用特定工具或记忆(Yao等人,2022;Lanchantin 等人,2024;Schick 等人,2024),而其他人则研究如何将大型语言模型的推理提炼为较小的语言模型Ho 等人 (2022) ;李等人 (2022); Hsieh 等人 (2023) 但值得注意的是,Pan 等人 (2024) 表明这些反馈循环可能会导致奖励黑客行为。 Zelikman 等人 (2023b) 展示了如何实现引导循环,其中模型使用相同的代码改进器和 Haluptzok 等人 (2023) 重复改进代码改进器展示了语言模型如何通过编程难题 Schuster 等人 (2021) 来引导其编程能力。 其他作品也采用了类似的策略,使用语言模型来解决归纳推理任务或对现实世界系统进行建模(Wang 等人,2023;Qiu 等人,2023;Zhu 等人,2023;Li 等人,2024 )

一些作品研究了模型如何从上下文中的推理错误中学习(Shinn 等人,2023;Madaan 等人,2023;Zhang 等人,2024;Liu 等人,2023) 许多研究还关注 LM 从上下文推理示例中学习的能力(Lampinen 等人,2022;Zhou 等人,2022) - 相应地,Khattab 等人(2022) Khattab 等人 (2023) 展示了如何在多步骤推理管道的上下文中优化用于提示模型推理的示例集。 此外,Zhang等人(2022)证明,通过使用多种零样本提示进行推理,可以提高语言模型中的零样本问答能力。

附录 G 改进的分布

我们还可视化了训练集中符元改进的分布。

Refer to caption
图7: 对数概率变化的分布. 我们可视化评估数据集中生成的想法所产生的对数概率变化的分布。 我们将相对于 LM 的对数概率变化密度可视化,无需思考,并根据对数密度进行着色。 分布是倾斜的,大多数 Token 不受影响,而一小部分硬 Token 则从想法中看到了实质性的改进。 这符合我们的直觉,即一般网络文本中的大多数标记不需要显着的推理来预测,但思想对于具有挑战性的标记来说是不成比例的有益。

附录 H 贡献可视化

Refer to caption
图 8: 贡献可视化. 我们提供了一个示例文本,其中我们可视化了引入思想对整个文本中的标记的帮助程度。 绿色表示该词符之前的想法使该词符更容易预测,而黄色表示它使该词符更难预测。 更具影响力的想法具有更高的不透明度。

附录 I 处理不稳定性

这项任务的几个方面都有可能带来不稳定。 首先,也许最重要的是,生成的思想(或思想词符)的效用是从思想到其对语言预测的贡献的映射的函数;然而,从思想到此贡献的映射是基于思想本身来学习的。 这意味着,即使一个人产生了一个可以完美预测下一个词符的想法,如果该代词符上的混合头权重为0,则损失也无法从中接收到任何信号。 我们探索的一种解决方案是将 Gumbel-Softmax 技巧与直通估计器 Jang 等人 (2016) 结合使用,但通过许多连续的 softmax 操作,我们观察到梯度消失。 这引入了探索与利用的权衡,这是强化学习中的一个基本挑战。 诸如 DQN (Mnih 等人, 2013)、PPO (Schulman 等人, 2017) 和 A3C (Mnih 等人, 2016) 等方法通常通过学习状态价值函数来解决这些权衡,该函数估计每个状态的预期未来奖励。 然而,与这种环境相关的奖励函数是不稳定的(如前所述,由于混合头也在变化)——因此,我们对这些技术的基础知识探索并不乐观。 虽然我们远非第一个注意到优化基本原理是一项强化学习任务(Zelikman 等人,2022;Zhang & Parkes,2023;Phan 等人,2023),但需要对基本原理进行优化为了避免损害基本模型性能,会引入额外的复杂性。 本质上,从 LM 输出到下一个词符预测的映射越复杂,我们观察到的不稳定性就越多。 另一方面,当我们在没有任何插值的情况下进行训练时,即取消混合头并仅在思想后使用语言模型预测,模型很快就学会了简单地忽略思想(并且我们没有看到任何下游任务的泛化)。

我们探索了使用单独的头进行思考和说话(这里,我们使用说话是指直接输出隐藏状态或逻辑,而不是混合权重)。 特别是,我们探索了隐藏状态和 MLP 的线性层,初始化为基本语言模型输出贡献 0 残差,以便生成与语言模型原本生成的类似的想法和下一个标记预测。 然而,我们观察到,在所有情况下,前面提到的不稳定性都会阻碍学习。 因此,我们的目标是删除或最小化所有可能改变语言模型输出的组件,无论有没有其基本原理。 我们还注意到,我们选择使用语言模型来输出组合多个状态的权重(由我们的混合头完成)本质上是一种注意力机制,允许模型关注其思考。 这与 Backpack 语言模型(Hewitt 等人,2023) 中采用的方法相似,后者也学习预测权重以应用于总输入嵌入来对未来文本进行建模,而不是让语言模型输出任意嵌入。 尽管存在这种限制,Backpack 语言模型的性能似乎与传统语言模型相当(Hewitt 等人,2023)