我们介绍了QWEN2.5-1M,这是一系列模型,将上下文长度扩展到100万个 Token 。与之前的128K版本相比,qwen2 ...
0 0 0 2025/09/21 arXiv:2501.15383v1 mencius
多模式的大语言模型(MLLM)取得了显着的进步,这在很大程度上是由于它们处理越来越长和复杂的上下文的能力,例如高分辨率图像,扩展的视频序列和冗长的音频输入。尽管这种能力显着增强了MLLM功能,但它引入了实质性的计算挑战,这主要是由于具有大量输入 Token 的自我发挥机制的二次复杂性。为了减轻这些瓶颈, Token 压缩已成为一种吉祥和关键的方法,从而有效地减少了训练和推理期间的 Token 数量 ...
0 0 0 2025/09/21 arXiv:2507.20198v4 cwd
大型语言模型(LLMS)经常与与信息检索和数据操作有关的数据分析请求困难,这些请求在多种条件下经常在现实世界中出现。在本文中,我们介绍了表格的思维,在该思维中,我们将表格结构注入LLMS以获取数据分析请求。通过各种请求类型的全面评估,我们表明提供表格结构可产生40 ...
0 0 0 2025/09/21 arXiv:2412.17189v3 stringify
个性化联合学习(PFL)通过平衡客户之间的知识共享与每个客户的模型个性化之间的平衡,共同训练各种本地模型。本文通过显式将潜在表示形式分为两个部分,以捕获共享知识和特定于客户的个性化,从而导致更可靠和有效的PFL。分离是通过新型联合双重变异自动编码器(FedDVA)实现的,该自动编码器(FedDVA)采用两个编码器来推断两种类型的表示 ...
0 0 0 2025/09/21 arXiv:2306.03570v2 石大大
大型语言模型 (LLM) 的服务系统通常经过优化,以提高服务质量 (QoS) 和吞吐量。然而,由于缺乏开源 LLM 服务工作负载,这些系统经常在不切实际的工作负载假设下进行评估。因此,当这些系统部署在现实场景中时,性能可能会下降 ...
0 0 0 2025/09/21 arXiv:2401.17644v5 tessie
最近的ML安全文献很大,重点是针对对齐的大型语言模型(LLM)的攻击。这些攻击可能会提取私人信息,或者将模型推向产生有害产出。在实际部署中,LLM通常是较大的代理管道的一部分,包括内存系统,检索,Web访问和API调用 ...
0 0 0 2025/09/21 arXiv:2502.08586v1 translater
最近,大型语言模型(LLM)展示了自然语言理解的显着功能。在展示熟练的日常对话和提问情况的同时,这些模型经常在需要精确的领域中挣扎,例如医疗应用,因为它们缺乏特定于领域的知识。在本文中,我们描述了构建专门为医学应用设计的强大的开源语言模型的程序,称为PMC-llama ...
0 0 0 2025/09/21 arXiv:2304.14454v3 尼斯湖
尽管多模式的大语言模型(MLLM)取得了令人印象深刻的表现,但多模式指令调整阶段通常会导致灾难性忘记基本LLM的语言能力,即使在Llama3之类的强大模型中也是如此。为了解决这个问题,我们提出了定位 - 然后是一个无训练的参数融合框架,该框架首先找到重要参数,然后选择性合并它们。我们进一步介绍了神经元融合,这是一种神经元级策略,它保留了具有较大参数转移的神经元的影响 - 可能负责新获得的视觉能力的 ...
0 0 0 2025/09/21 arXiv:2505.16703v1 muzhi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)