liuweitang的文档

liuweitang

个性签名 ...

Behavior Trees Enable Structured Programming of Language Model Agents

在互联网规模数据集上训练的语言模型显示出解决自然语言处理和计算机视觉问题的令人印象深刻的能力。然而，经验表明，这些模型经常会以意想不到的方式变得脆弱，并且需要大量的脚手架来确保它们在包含“语言模型代理”的较大系统中正确运行。在本文中，我们认为行为树提供了一个将语言模型与经典人工智能和传统编程相结合的统一框架 ...

0 0 0 0 2024/05/13 arXiv:2404.07439v1 liuweitang

Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning

人们一致认为LLM的指令微调需要高质量的数据，但它们是什么？ LIMA (NeurIPS 2023) 和 AlpaGasus (ICLR 2024) 是选择此类高质量示例的最先进方法，可以通过手动管理或使用 GPT-3.5-Turbo 作为质量评分器。我们证明，从标准数据集中选择具有最长响应的 1,000 条指令的极其简单的基线可以始终优于根据 GPT-4 和 PaLM-2 作为判断的这些复杂方法，同时在测试事实知识的 OpenLLM 基准上保持竞争力 ...

0 0 0 0 2024/05/12 arXiv:2402.04833v1 liuweitang

Let's Verify Step by Step

近年来，大型语言模型执行复杂多步骤推理的能力有了很大的提高。然而，即使是最先进的模型仍然经常产生逻辑错误。为了训练更可靠的模型，我们可以转向结果监督（为最终结果提供反馈）或过程监督（为每个中间推理步骤提供反馈） ...

0 0 0 0 2024/05/12 arXiv:2305.20050v1 liuweitang

Conifer: Improving Complex Constrained Instruction-Following Ability of Large Language Models

大型语言模型 (LLM) 遵循指令的能力对于实际应用至关重要。尽管最近取得了进展，但一些研究强调， LLM 在面临具有挑战性的指令时会陷入困境，尤其是那些包含复杂约束的指令，从而阻碍了他们在各种任务中的有效性。为了应对这一挑战，我们引入了 Conifer，这是一种新颖的指令调整数据集，旨在增强 LLM 遵循具有复杂约束的多级指令 ...

0 0 0 0 2024/05/07 arXiv:2404.02823v1 liuweitang

Let's Learn Step by Step: Enhancing In-Context Learning Ability with Curriculum Learning

演示排序是上下文学习 (ICL) 的重要策略，可以显着影响大型语言模型 (LLM) 的性能。然而，当前大多数排序方法都需要额外的知识和相似性计算。我们提倡少镜头情境课程学习（ICCL），这是一种简单但有效的 ICL 演示排序方法，这意味着在推理过程中逐渐增加提示演示的复杂性 ...

0 0 0 0 2024/05/06 arXiv:2402.10738v1 liuweitang

YODA: Teacher-Student Progressive Learning for Language Models

尽管大型语言模型（LLM）已表现出对一系列任务的熟练程度，但它们仍然落后于人类的学习效率。这种差异通常与人类固有的从基本例子中学习、逐渐概括和处理更复杂的问题以及通过持续反馈来完善技能的能力有关。受此启发，本文介绍了YODA，一种新颖的师生渐进式学习框架，通过模拟师生教育过程来提高模型微调的功效 ...

0 0 0 0 2024/05/06 arXiv:2401.15670v1 liuweitang

Dual Instruction Tuning with Large Language Models for Mathematical Reasoning

最近的进展凸显了利用思想链 (CoT) 数据进行数学推理任务的大型语言模型 (LLM) 指令调整的成功。尽管 LLM 进行了微调，但挑战仍然存在，例如 CoT 生成中的错误、缺失和冗余步骤导致答案预测不准确。为了缓解这个问题，我们提出了一种双指令调整策略，从正向和反向方向仔细建模数学推理 ...

0 0 0 0 2024/05/03 arXiv:2403.18295v1 liuweitang

Orca: Progressive Learning from Complex Explanation Traces of GPT-4

最近的研究重点是利用大型基础模型 (LFM) 生成的输出，通过模仿学习来增强较小模型的能力。许多问题都会影响这些模型的质量，包括来自浅层 LFM 输出的有限模拟信号；小规模同质训练数据；最值得注意的是，缺乏严格的评估，导致高估了小模型的能力，因为它们倾向于学习模仿 LFM 的风格，而不是推理过程。为了应对这些挑战，我们开发了 Orca（我们正在与我们的法律团队合作，根据 LLaMA 的发布政策公开发布模型权重的差异），这是一个 130 亿参数的模型，可以学习模仿LFM 的推理过程 ...

0 0 0 0 2024/05/05 arXiv:2306.02707v1 liuweitang