xx的文档

xx 南京

生命的统一性和多样性

Toxicity of the Commons: Curating Open-Source Pre-Training Data

开源大型语言模型在研究人员和从业者中变得越来越可用和流行。尽管开放权重模型已经取得了重大进展，但开放训练数据尚未被领先的开放权重模型创建者采用。与此同时，研究人员正在努力使语言模型更安全 ...

0 0 0 0 2024/11/02 arXiv:2410.22587v1 xx

Constraint Back-translation Improves Complex Instruction Following of Large Language Models

大型语言模型（LLM）很难遵循格式、长度等复杂约束的指令。按照传统的指令调整实践，之前的工作是通过向高级LLM提供复杂指令而生成的复杂指令-响应对进行后续训练。即使是高级LLM也无法很好地遵循复杂的指令，从而限制了生成数据的质量...... ...

0 0 0 0 2024/11/01 arXiv:2410.24175v1 xx

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

无监督预训练在许多监督领域具有变革性。然而，将这些想法应用于强化学习（RL）提出了一个独特的挑战，因为微调并不涉及模仿特定任务的数据，而是通过迭代的自我改进来探索和定位解决方案。在这项工作中，我们研究如何利用未标记的先验轨迹数据来学习有效的探索策略 ...

0 0 0 0 2024/10/28 arXiv:2410.18076v1 xx

Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance

NLP 基准依赖标准化数据集来训练和评估模型，对于推进该领域至关重要。传统上，专家注释可确保高质量的标签；然而，随着现代模型对更大数据集的需求不断增长，专家注释的成本并不能很好地适应。虽然众包提供了更具可扩展性的解决方案，但它通常是以牺牲注释精度和一致性为代价的 ...

0 0 0 0 2024/10/28 arXiv:2410.18889v1 xx

Addition is All You Need for Energy-efficient Language Models

大型神经网络将大部分计算花费在浮点张量乘法上。在这项工作中，我们发现浮点乘法器可以用一个高精度的整数加法器来近似。我们提出了线性复杂度乘法 L-Mul 算法，该算法通过整数加法运算来近似浮点数乘法 ...

0 1 1 1 2024/10/10 arXiv:2410.00907v2 xx

RATIONALYST: Pre-training Process-Supervision for Improving Reasoning

LLM 生成的推理步骤可能不完整，因为它们模仿了在预训练数据中发现的日常交流中常见的逻辑跳跃：潜在的基本原理经常是隐含的（未说明的）。为了应对这一挑战，我们引入了 RATIONALYST，这是一种推理过程监督模型，基于对从未标记数据中提取的大量基本原理注释进行预训练。我们从网络规模的未标记数据集（Pile）和推理数据集的组合中提取了 79k 个基本原理，并以最少的人为干预 ...

0 0 0 0 2024/10/04 arXiv:2410.01044v1 xx

Self-Harmonized Chain of Thought

思想链（CoT）提示揭示了大型语言模型能够通过中间步骤执行复杂的推理。 CoT 提示主要分为三种方法。第一种方法利用简单的提示，例如“让我们一步一步思考”，在得出答案之前生成一个连续的思维过程 ...

0 0 0 0 2024/09/20 arXiv:2409.04057v1 xx

LLMs + Persona-Plug = Personalized LLMs

个性化在许多语言任务和应用程序中起着至关重要的作用，因为具有相同需求的用户可能会根据个人兴趣更喜欢不同的输出。这导致了各种个性化方法的发展，旨在适应大型语言模型（LLM）以生成符合用户偏好的定制输出。其中一些涉及为每个用户微调独特的个性化LLM，这对于广泛应用来说过于昂贵 ...

0 0 0 0 2024/09/20 arXiv:2409.11901v1 xx

Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue

强化学习（RL）是增强任务导向对话（TOD）系统的强大方法。然而，现有的强化学习方法往往主要关注生成任务，例如对话策略学习（DPL）或响应生成（RG），而忽略了用于理解的对话状态跟踪（DST）。这种狭隘的关注限制了系统通过忽视理解和生成之间的相互依赖来实现全局最优性能 ...

0 0 0 0 2024/09/18 arXiv:2406.14457v1 xx

ProteinBench: A Holistic Evaluation of Protein Foundation Models

近年来，蛋白质基础模型的发展激增，显着提高了从 3D 结构预测和蛋白质设计到构象动力学的蛋白质预测和生成任务的性能。然而，由于缺乏统一的评估框架，人们对这些模型的功能和局限性仍然知之甚少。为了填补这一空白，我们引入了 ProteinBench，这是一个旨在提高蛋白质基础模型透明度的整体评估框架 ...

0 0 1 1 2024/09/14 arXiv:2409.06744v1 xx