尽管大型语言模型 (LLM) 取得了成功,但它们也表现出明显的缺点,特别是在处理长上下文时。它们的推理成本与序列长度呈二次方关系,这使得在某些现实世界的文本处理应用程序(例如检索增强生成(RAG))中部署成本高昂。此外, LLM 还表现出“分心现象”,即提示中不相关的上下文会降低输出质量 ...
0 0 0 2025/01/13 arXiv:2404.06910v2 15966829631
本文介绍了自监督神经网络模型来解决 3D 人体分析和处理领域的几个基本问​​题。首先,我们提出了 VariShaPE(Varifold Shape Parameter Estimator),这是一种用于检索身体形状和姿势的潜在空间表示的新颖架构。该网络提供了一种快速而稳健的方法来估计任意未注册网格嵌入到潜在空间中的情况 ...
0 0 0 2025/01/13 arXiv:2411.03475v1 zxiang7996
多模态大语言模型(MLLM)的最新进展显着提高了它们对单个图像的细粒度感知和对多个图像的一般理解。然而,现有的 MLLM 在复杂的多图像场景中实现精确接地仍然面临挑战。为了解决这个问题,我们首先探索一个思想链(CoT)框架,它将单图像基础与多图像理解相结合 ...
0 0 0 2025/01/13 arXiv:2501.05767v1 15261487245
一致的大型语言模型 (LLM) 是强大的语言理解和决策工具,是通过与人类反馈的广泛一致而创建的。然而,这些大型模型仍然容易受到越狱攻击,对手会操纵提示来引发恶意输出,而这些输出不应由一致的 LLM 提供。研究越狱提示可以引导我们深入研究 LLM 的局限性,并进一步指导我们确保它们的安全 ...
0 0 0 2025/01/13 arXiv:2310.04451v2 liukai
对话策略学习是面向任务的对话系统(TDS)的关键组成部分,它根据每次对话状态决定系统的下一步行动。通常选择强化学习(RL)来学习对话策略,将用户视为环境,将系统视为代理。人们已经创建了许多基准数据集和算法来促进基于强化学习的对话策略的开发和评估 ...
0 0 0 2025/01/13 arXiv:2202.13675v2 leesongzero
Transformer 模型在许多 NLP 和序列建模任务上产生了令人印象深刻的结果。值得注意的是,Transformers 可以处理长序列,这使得它们能够产生长的连贯输出:GPT-3 生成的完整段落或 DALL-E 生成的结构良好的图像。这些大型语言模型令人印象深刻,但也非常低效且成本高昂,这限制了它们的应用和可访问性 ...
0 0 0 2025/01/13 arXiv:2110.13711v2 椒盐河蟹
对话系统,包括面向任务的对话系统(TOD)和开放域对话系统(ODD),已经经历了重大转变,其中语言模型(LM)发挥着核心作用。这项调查深入研究了对话系统的历史轨迹,通过将这种变革分为四个不同的阶段,阐明它们与语言模型进步的复杂关系,每个阶段都以关键的 LM 突破为标志: 1) Early_Stage:以统计 LM 为特征,产生基于规则的LM或机器学习驱动的对话系统; 2)基于neural_lang ...
0 0 0 2025/01/13 arXiv:2311.16789v1 sherwinNG
大型语言模型 (LLM) 的一个重要问题是它们生成有毒语言的能力。在这项工作中,我们表明,负责毒性的神经元可以通过它们区分毒性句子的能力来确定,并且可以通过与该能力成比例地降低其激活水平来减轻毒性语言。我们提出 AUROC 适应(AurA),这是一种可以应用于任何预先训练的 LLM 以减轻毒性的干预措施 ...
0 0 0 2025/01/13 arXiv:2407.12824v1 liukai

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)