heiheihei的文档

heiheihei

个性签名 ...

Simple and Scalable Strategies to Continually Pre-train Large Language Models

大型语言模型（LLM）通常会在数十亿个 Token 上进行预训练，只有在新数据可用时才会重新开始该过程。更有效的解决方案是持续预训练这些模型，与重新训练相比，可以节省大量计算量。然而，新数据引起的分布变化通常会导致先前数据的性能下降或对新数据的适应性较差 ...

0 0 0 0 2024/04/08 arXiv:2403.08763v3 heiheihei

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

本文研究了训练后大型语言模型 (LLM)，使用来自强大预言机的偏好反馈来帮助模型迭代地改进自身。培训后 LLM 的典型方法涉及人类反馈强化学习（RLHF），传统上它将奖励学习和后续策略优化分开。然而，这种奖励最大化方法受到“逐点”奖励（例如 Bradley-Terry 模型）性质的限制，无法表达复杂的不及物或循环偏好关系 ...

0 0 0 0 2024/04/08 arXiv:2404.03715v1 heiheihei

Long-context LLMs Struggle with Long In-context Learning

大型语言模型 (LLM) 在处理超过 32K 标记的长序列方面取得了重大进展。然而，他们的绩效评估很大程度上局限于复杂度和综合任务等指标，这些指标可能无法完全捕捉他们在更细致的现实场景中的能力。这项研究引入了一个专门的基准（LIConBench），专注于极端标签分类领域内的长期上下文学习 ...

0 0 1 1 2024/04/03 arXiv:2404.02060v1 heiheihei

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

我们研究潜在扩散模型（LDM）的缩放特性，重点关注其采样效率。虽然改进的网络架构和推理算法已被证明可以有效提高扩散模型的采样效率，但模型大小（采样效率的关键决定因素）的作用尚未得到彻底检验。通过对已建立的文本到图像扩散模型的实证分析，我们深入研究了模型大小如何影响不同采样步骤的采样效率 ...

0 1 0 0 2024/04/03 arXiv:2404.01367v1 heiheihei

Scaling Laws for Reward Model Overoptimization

在根据人类反馈进行强化学习时，通常会针对经过训练来预测人类偏好的奖励模型进行优化。由于奖励模型是一个不完美的代理，根据古德哈特定律，过度优化其值可能会阻碍真实性能。这种效应经常被观察到，但由于收集人类偏好数据的费用而没有仔细测量 ...

0 0 0 0 2024/04/02 arXiv:2210.10760v1 heiheihei

CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

开发具有强大的长上下文能力的大型语言模型（LLM）一直是最近的研究热点，导致精通中文的长上下文LLM的出现。然而，由于缺乏基准，这些模型的评估仍然不发达。为了弥补这一差距，我们推出了 CLongEval，这是一个用于评估长背景 LLM 的综合中国基准 ...

0 0 0 0 2024/04/02 arXiv:2403.03514v1 heiheihei

Gecko: Versatile Text Embeddings Distilled from Large Language Models

我们推出了 Gecko，一种紧凑且多功能的文本嵌入模型。 Gecko 通过利用一个关键思想实现了强大的检索性能：将大型语言模型 (LLM) 中的知识提取到检索器中。我们的两步蒸馏过程首先使用 LLM 生成多样化的合成配对数据 ...

0 0 0 0 2024/04/01 arXiv:2403.20327v1 heiheihei

LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression

本文重点关注与任务无关的提示压缩，以提高通用性和效率。考虑到自然语言中的冗余，现有方法通过根据从因果语言模型（例如LLaMa-7B）获得的信息熵删除标记或词汇单元来压缩提示。挑战在于信息熵可能是次优压缩指标：（i）它仅利用单向上下文，可能无法捕获即时压缩所需的所有基本信息； (ii) 它与即时压缩目标不一致 ...

0 0 0 0 2024/03/29 arXiv:2403.12968v1 heiheihei

sDPO: Don't Use Your Data All at Once

随着大型语言模型 (LLM) 开发的进展，使其与人类偏好保持一致变得越来越重要。我们提出了逐步 DPO (sDPO)，这是最近流行的用于对齐调整的直接偏好优化 (DPO) 的扩展。这种方法涉及划分可用的偏好数据集并逐步使用它们，而不是一次性使用它们 ...

0 1 0 0 2024/03/29 arXiv:2403.19270v1 heiheihei

InternLM2 Technical Report

ChatGPT 和 GPT-4 等大型语言模型 (LLM) 的发展引发了关于通用人工智能 (AGI) 出现的讨论。然而，在开源模型中复制这些进步一直具有挑战性。本文介绍了 InternLM2，这是一个开源 LLM ，通过创新的预训练和优化技术，它在 6 个维度和 30 个基准的综合评估、长上下文建模和开放式主观评估方面优于其前辈 ...

0 1 1 12 2024/03/27 arXiv:2403.17297v1 heiheihei