一译 —— 文档和论文翻译、对照阅读、讨论和社区

A Comprehensive Survey of Reward Models: Taxonomy, Applications, Challenges, and Future

奖励模型（RM）表现出了增强大型语言模型（LLM）的令人印象深刻的潜力，因为RM可以作为人类偏好的代理，提供信号来指导LLMS在各种任务中的行为。在本文中，我们提供了相关研究的全面概述，从偏好收集，奖励建模和用法的角度探索RMS。接下来，我们介绍RMS的应用，并讨论评估的基准 ...

0 0 0 2025/04/28 arXiv:2504.12328v1 chongxian

Adversarial Semantic Collisions

我们研究语义碰撞：语义上无关但通过NLP模型判断为相似的文本。我们开发了基于梯度的方法来产生语义碰撞，并证明了许多任务的最新模型依赖于分析文本的含义和相似性（包括释义识别，文档检索，响应建议和提取性摘要），这很容易受到语义碰撞。例如，给定目标查询，将精心设计的碰撞插入无关的文件中可以将其检索排名从1000转移到前3名 ...

0 0 0 2025/04/28 arXiv:2011.04743v1 0x211

Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

大型语言模型 (LLM) 已被证明会产生非法或不道德的响应，特别是在“越狱”时。对越狱的研究凸显了 LLM 的安全问题。然而，先前的研究主要集中在单轮对话，忽略了多轮对话所带来的潜在复杂性和风险，而多轮对话是人类从 LLM 中获取信息的关键模式 ...

0 0 0 2025/04/28 arXiv:2402.17262v2 dm616703

Intent-aware Diffusion with Contrastive Learning for Sequential Recommendation

通过从增强视图中合并自我监督的信号，对比度学习已在培训顺序推荐模型中有效。大多数现有方法通过随机数据增强从相同的交互序列产生多个视图，旨在使其在嵌入空间中的表示形式对齐。但是，用户通常在购买商品时具有特定意图（e ...

0 0 0 2025/04/28 arXiv:2504.16077v1 plain

Learned Step Size Quantization

在推理时间下以低精度操作运行的深网提供了与高精度替代方案相比的功率和空间优势，但需要克服随着精确度降低而保持高精度的挑战。在这里，我们提出了一种训练此类网络，学习的步长量化的方法，该方法在使用模型，来自各种体系结构，重量和激活量化为2、3或4位精确度的精确度时，可以在Imagenet数据集上达到最高的精度，并且可以训练3位模型，以达到完整的精确基线精度。我们的方法建立在量化网络中学习权重的现有方法 ...

0 0 0 2025/04/28 arXiv:1902.08153v3 bsdl

MedSafetyBench: Evaluating and Improving the Medical Safety of Large Language Models

随着大型语言模型（LLMS）发展越来越复杂的能力并在医疗环境中找到应用，由于其对个人和公共健康，患者安全和人权的影响深远，评估其医疗安全变得重要。但是，在LLM的背景下，对医疗安全的概念几乎没有理解，更不用说如何评估和改进了。为了解决这一差距，我们首先根据美国医学协会规定的医学伦理学原理来定义LLMS中医疗安全的概念 ...

0 0 0 2025/04/28 arXiv:2403.03744v5 lulu

Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning

大型语言模型（LLMS）表现出强大的推理能力，尤其是通过增强学习（RL）增强时。虽然先前的工作已成功地将RL应用于数学推理（规则和正确性是明确定义的），将这些方法推广到更广泛的推理领域，由于数据有限，缺乏可验证的奖励结构以及各种任务要求，因此仍然具有挑战性。在这项工作中，我们提出了Nemotron-Crossthink，该框架系统地结合了多域中的Corpora，包括综合和现实的问题 - 答案对，以 ...

0 0 0 2025/04/28 arXiv:2504.13941v2 yiyili

Semi-Parametric Retrieval via Binary Bag-of-Tokens Index

信息检索已从独立系统转变为跨更广泛应用的基本组件，索引效率，成本效益和新鲜度变得越来越关键，但经常被忽视。在本文中，我们引入了半参数散开检索（SIDR），这是一种双重编码器检索框架，将从神经参数取回检索指数以实现有效的，低成本和参数 - 不可能的索引，以实现出现的用例。具体而言，除了将嵌入式用作现有神经检索方法之类的索引外，SIDR还支持非参数 Token 化指数用于搜索，从而达到了BM25样索引 ...

0 0 0 2025/04/28 arXiv:2405.01924v2 mmmp

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）