Datow的文档

Datow

个性签名 ...

MAGNIFICo: Evaluating the In-Context Learning Ability of Large Language Models to Generalize to Novel Interpretations

人类拥有对语言表达进行新颖解释的非凡能力，使他们能够学习新单词并理解特定社区的含义。然而，大型语言模型（LLM）存在知识截止点，并且反复微调的成本很高。因此，对于 LLM 来说，学习上下文中的新颖解释至关重要 ...

0 0 0 0 2024/07/05 arXiv:2310.11634v1 Datow

Case-Based or Rule-Based: How Do Transformers Do the Math?

尽管在各种复杂任务中表现出色，但现代大型语言模型 (LLM) 在处理一些对人类来说简单直观的数学问题（例如加法）时仍然遇到困难。虽然我们可以轻松学习加法的基本规则并将其应用于任何长度的新问题，但 LLM 却很难做到这一点。相反，他们可能会依靠训练语料库中看到的类似案例来寻求帮助 ...

0 0 0 0 2024/07/01 arXiv:2402.17709v2 Datow

MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark

大型语言模型 (LLM) 的最新进展展示了数学方面的显着进步。然而，像 GSM8k 这样的传统数学基准提供了单一维度的视角，无法对 LLM 的数学能力进行全面评估。为了解决这一差距，我们引入了 MathBench，这是一个新的基准，可以严格评估大型语言模型的数学能力 ...

0 0 0 0 2024/06/19 arXiv:2405.12209v1 Datow

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models

大型语言模型（LLM）突破了自然语言理解的极限，并表现出了出色的解决问题的能力。尽管取得了巨大的成功，但大多数现有的开源 LLM （例如 ...

0 0 0 0 2024/06/05 arXiv:2309.12284v4 Datow

DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks

大型语言模型（LLM）在各种评估基准中都取得了令人瞩目的表现。然而，人们担心其大量训练语料库中可能存在数据污染。此外，当前基准的静态性质和固定复杂性可能不足以衡量 LLM 的先进能力 ...

0 0 0 0 2024/05/23 arXiv:2309.17167v3 Datow

Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in Closed-Source LLMs

自然语言处理 (NLP) 研究越来越关注大型语言模型 (LLM) 的使用，其中一些最受欢迎的模型是完全或部分闭源的。由于无法访问模型细节，尤其是训练数据，一再引起研究人员对数据污染的担忧。人们曾多次尝试解决这个问题，但仅限于轶事证据和反复试验 ...

0 0 0 0 2024/05/22 arXiv:2402.03927v2 Datow

Compression Represents Intelligence Linearly

人们相信，学习良好的压缩会带来智慧。最近，语言建模已被证明等同于压缩，这为大型语言模型（LLM）的成功提供了令人信服的理由：更高级语言模型的开发本质上是增强压缩，从而促进智能。尽管讨论如此吸引人，但关于压缩和智能之间相互作用的实证证据却很少 ...

0 0 1 1 2024/05/17 arXiv:2404.09937v1 Datow

Benchmarking Large Language Models on Controllable Generation under Diversified Instructions

虽然大型语言模型（LLM）表现出了令人印象深刻的指令跟踪能力，但仍不清楚它们是否以及在多大程度上可以响应各种指令中可能包含的显式约束。作为 LLM 对齐的一个重要方面，制定这样一套专门的指令并研究 LLM 的行为非常重要。为了解决这一空缺，我们提出了一个新的基准CoDI-Eval，以系统、全面地评估 LLM 对各种约束条件下指令的反应 ...

0 0 0 0 2024/05/16 arXiv:2401.00690v1 Datow

Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations

本文重新审视了 NLP 领域中分布外（OOD）鲁棒性的研究。我们发现，以往研究中的分布偏移设置通常缺乏足够的挑战，阻碍了 OOD 稳健性的准确评估。为了解决这些问题，我们提出了一个基准构建协议，以确保明显的差异化和具有挑战性的分布变化 ...

0 0 0 0 2024/05/16 arXiv:2306.04618v2 Datow

Unveiling the Generalization Power of Fine-Tuned Large Language Models

虽然大型语言模型 (LLM) 已表现出卓越的多任务处理能力，但通常需要在下游、特定领域的数据集上对这些模型进行微调，以便与未经微调的模型相比，在测试集上产生卓越的性能。然而，微调对 LLM 泛化能力的综合影响尚不完全清楚。本文深入探讨了原始的、未经修改的 LLM 及其微调变体之间的差异 ...

0 0 0 0 2024/05/16 arXiv:2403.09162v1 Datow