最近的研究对语言模型中的涌现能力是大型模型所独有的信念提出了质疑。这种怀疑源于两个观察结果:1)较小的模型也可以在新兴能力上表现出高性能;2)对用于衡量这些能力的不连续指标存在疑问。在本文中,我们建议研究预训练损失镜头中的涌现能力,而不是模型大小或训练计算 ...

0 0 0 0 2024/04/19 arXiv:2403.15796v2 lockee

大型语言模型 (LLM) 现在可以处理更长、更复杂的输入,这有助于使用更详细的提示。但是,提示通常需要进行一些调整才能提高部署性能。最近的工作提出了自动提示优化方法,但随着提示复杂性和LLM强度的增加,许多提示优化技术不再足够,需要一种新的方法来优化{\em元提示程序} ...

0 0 1 3 2024/04/18 arXiv:2404.02319v1 lockee

大型语言模型 (LLM) 的激增凸显了进行彻底评估以辨别其比较优势、局限性和最佳用例的至关重要性。尤其重要的是评估他们准确检索给定提示中包含的信息的能力。模型执行此操作的能力会显着影响其利用上下文细节的效率,从而影响其在实际应用中的实际功效和可靠性 ...

0 0 1 2 2024/04/17 arXiv:2404.08865v1 lockee

基于2018年5月至2024年1月提交的100万篇arXiv论文,我们通过词频变化的统计分析来评估ChatGPT摘要中写作风格的文本密度。经过仔细的噪声分析后,我们的模型在真实摘要和 ChatGPT 修改摘要(模拟数据)的混合上进行了校准和验证。我们发现 ChatGPT 对 arXiv 摘要的影响越来越大,特别是在计算机科学领域,如果我们采用最简单的提示之一的输出,ChatGPT 修订摘要的比例估计约为 35%,”修改以下句子”,作为基线 ...

0 0 0 0 2024/04/15 arXiv:2404.08627v1 lockee

我们表明,领域通用自动评估器可以显着提高网络导航和设备控制代理的性能。我们尝试了多种评估模型,在推理成本、设计模块化和准确性之间进行权衡。我们在几个流行的数字代理基准测试中验证了这些模型的性能,发现介于 74 之间 ...

0 0 1 2 2024/04/14 arXiv:2404.06474v2 lockee

我们提出了 GPQA,这是一个具有挑战性的数据集,包含 448 个多项选择题,由生物学、物理学和化学领域的专家编写。我们确保问题是高质量且极其困难的:在相应领域拥有或正在攻读博士学位的专家达到 65% 的准确率(扣除专家在回顾中发现的明显错误后为 74%),而只有高技能的非专家验证者尽管平均花费超过 30 分钟不受限制地访问网络(即, ...

0 0 0 0 2024/04/12 arXiv:2311.12022v1 lockee

多模态大型语言模型 (MLLM) 在 Web 相关任务中显示出了前景,但由于缺乏全面的基准,评估其在 Web 领域的性能仍然是一个挑战。现有的基准要么是针对一般的多模态任务而设计的,无法捕捉网页的独特特征,要么专注于端到端的Web代理任务,无法衡量OCR、理解和接地等细粒度的能力。在本文中,我们介绍了 \bench{},这是一个多模式基准测试,旨在评估 MLLM 在各种 Web 任务中的能力 ...

0 0 1 1 2024/04/10 arXiv:2404.05955v1 lockee

对比学习(CL)已成为无监督视觉表示学习最成功的范例之一,但它通常依赖于密集的手动数据增强。随着生成模型,尤其是扩散模型的兴起,生成接近真实数据分布的真实图像的能力已经得到了广泛认可。这些生成的高质量图像已成功应用于增强对比表示学习,这是一种称为“数据膨胀”的技术 ...

0 0 0 0 2024/04/02 arXiv:2403.12448v1 lockee

随着大型语言模型(LLM)的快速发展,多智能体应用取得了重大进展。然而,协调代理合作的复杂性和 LLM 不稳定的表现给开发强大而高效的多代理应用程序带来了显着的挑战。为了应对这些挑战,我们提出了 AgentScope,一个以开发人员为中心的多代理平台,以消息交换作为其核心通信机制 ...

0 0 0 0 2024/03/28 arXiv:2402.14034v1 lockee

随着预训练模型 (PTM) 规模的不断增长,仅向用户提供推理 API 已成为一种新兴实践,即模型即服务 (MaaS) 设置。为了适应模型参数冻结的 PTM,当前大多数方法都集中在输入端,寻求强大的提示来刺激模型获得正确答案。然而,我们认为,由于缺乏梯度信号,输入端适应可能会很困难,并且通常需要数千个 API 查询,从而导致较高的计算和时间成本 ...

0 0 0 0 2024/03/22 arXiv:2212.08408v2 lockee

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)