一译 —— 文档和论文翻译、对照阅读、讨论和社区

Scaling Laws for Speculative Decoding

大语模型（LLM）对有效解码的不断升级对于依赖于扩展的思想推理的推理密集型体系结构（如OpenAI-O3和DeepSeek-R1）尤其重要。这项研究通过密集的LLM体系结构调查了投机解码技术，以建立加速推理任务的基础见解。尽管利用平行草稿验证周期的投机解码方法已成为有前途的加速技术，但与通过预处理 - > sft-> sft->>>> rlHF训练范式相比，控制解码效率的缩放定律仍然不足以探索 . ...

0 0 5 2025/05/23 arXiv:2505.07858v1 yux

MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue

大型语言模型（LLMS）在其知识和理解能力的储层中表现出出色的表现，但在受到越狱攻击时，它们也被证明是对非法或不道德反应的表现。为了确保其在关键应用程序中的负责任部署，了解LLMS的安全能力和脆弱性至关重要。以前的作品主要集中于单轮对话中的越狱，俯瞰多轮对话中潜在的越狱风险，这是人类与LLMS互动的至关重要方式 ...

0 0 0 2025/05/23 arXiv:2411.03814v2 crazy

MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators

有效部署具有大量参数的专家（MOE）模型的关键方法是量化。但是，最新的MOE模型遭受了不可忽略的准确性损失，而极端量化（例如4位）。为了解决这个问题，我们介绍了Milo，这是一种新颖的方法，可以增强高度量化的MOE与低级补偿器的混合物 ...

0 0 0 2025/05/23 arXiv:2504.02658v2 ykkk

AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation

本文研究了基于 Transformer 的大语言模型（LLM）对越狱攻击的脆弱性，专门针对基于优化的贪婪坐标梯度（GCG）策略。我们首先观察到攻击的有效性与模型的内部行为之间存在正相关。例如，当模型更多地关注旨在确保LLM安全对准的系统提示时，攻击往往会降低 ...

0 0 0 2025/05/23 arXiv:2410.09040v1 crazy

Ground-Optimized 4D Radar-Inertial Odometry via Continuous Velocity Integration using Gaussian Process

雷达可确保在不利天气条件下强大的感应能力，但由于其固有较高的噪声水平，挑战仍然存在。现有的雷达射测已经通过诸如过滤伪点，利用多普勒速度或与惯性测量集成等策略来克服这些挑战。本文提出了超出现有的雷达惯性进程的两种新颖改进：地面优化的噪声滤波和连续的速度预先整合 ...

0 0 1 2025/05/23 arXiv:2502.08093v2 cargo

LREA: Low-Rank Efficient Attention on Modeling Long-Term User Behaviors for CTR Prediction

在迅速发展的用户历史行为数据的背景下，准确的点击率（CTR）预测需要对冗长的用户行为序列进行有效的建模。随着此类数据的数量不断膨胀，研究的重点已转向开发有效的长期行为建模方法来捕获潜在的用户兴趣。然而，大规模数据引入的复杂性带来了计算障碍 ...

0 0 0 2025/05/23 arXiv:2503.02542v4 17863574320

How to keep pushing ML accelerator performance? Know your rooflines!

机器学习（ML）应用程序的迅速增长，再加上其不断增加的模型大小和推理能量足迹，对专门的ML硬件体系结构产生了强烈的需求。已经探索和实施了许多ML加速器，主要是为了增加每个单位区域的任务级吞吐量并减少任务级别的能耗。本文调查了针对这些目标的关键趋势，以实现更有效的ML加速器，并提供了一个统一的框架，以了解计算和内存技术/体系结构如何相互作用以提高系统级别效率和性能 ...

0 0 0 2025/05/23 arXiv:2505.16346v1 jane88

BLEUBERI: BLEU is a surprisingly effective reward for instruction following

奖励模型对于将LLM与人类偏好保持一致，但训练费用很高，需要大规模的人体标记的偏好数据和强大的预算LLM骨架。同时，高质量合成指令遵循数据集的可用性提高了一个问题：在基于RL的一致性期间，更简单，基于参考的指标可以作为奖励模型的可行替代方案吗？在本文中，我们首先证明了BLEU是一种基本的弦乐指标，令人惊讶地匹配了强大的奖励模型，该模型与人的偏好符合一般指导遵循数据集的偏好。基于这种见解，我们开发了 ...

0 0 0 2025/05/23 arXiv:2505.11080v1 leec

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）