一译 —— 文档和论文翻译、对照阅读、讨论和社区

Towards User-level Private Reinforcement Learning with Human Feedback

通过人类反馈（RLHF）的增强学习已成为一种有影响力的技术，从而使大语模型（LLMS）与人类偏好保持一致。尽管RLHF具有有希望的潜力，但如何保护用户偏好隐私已成为一个至关重要的问题。以前的大多数工作都集中在使用差异隐私（DP）来保护单个数据的隐私 ...

0 0 0 2025/06/23 arXiv:2502.17515v1 hhhhh

Lightweight Relevance Grader in RAG

通过利用矢量数据库提供更准确和最新的信息来解决大语言模型（LLMS）的局限性。当用户提交查询时，RAG执行矢量搜索以查找相关文档，然后将其用于生成响应。但是，确保与查询检索文件的相关性将是一个巨大的挑战 ...

0 0 0 2025/06/23 arXiv:2506.14084v1 ifzz

Rebuilding ROME : Resolving Model Collapse during Sequential Model Editing

最近使用Rank-One模型编辑（ROME）（一种流行的模型编辑方法）的工作表明，某些事实是，算法在不破坏模型的情况下无法编辑。此类编辑以前称为禁用编辑。这些禁用的编辑会导致立即模型崩溃，并限制了罗马进行顺序编辑的使用 ...

0 0 0 2025/06/23 arXiv:2403.07175v3 wangteqi

Universal Preference-Score-based Pairwise Speech Quality Assessment

为了比较两个语音生成系统的性能，最有效的方法之一是估计其生成的语音之间的偏好得分。本文提出了一个新型的基于通用偏好得分的成对语音质量评估（UPPSQA）模型，旨在预测配对语音样本之间的偏好得分，以确定哪个具有更好的质量。该模型首先分别预测两个语音样本的绝对平均意见分数（MOS），然后使用偏好函数将它们汇总为相对偏好得分 ...

0 0 0 2025/06/23 arXiv:2506.01455v1 zhangqi33

On the Feasibility of Using LLMs to Autonomously Execute Multi-host Network Attacks

LLM在某些安全任务和CTF挑战中表现出了初步的承诺。但是，目前尚不清楚LLM是否能够实现多阶段网络攻击，这涉及在多个主机上执行各种动作，例如进行侦察，利用漏洞来获得初始访问，利用内部主机横向移动，并使用多个损害的主机来驱逐数据。我们评估了10个多阶段网络的LLM，发现流行的LLM无法实现这些攻击 ...

0 0 0 2025/06/23 arXiv:2501.16466v3 tmylla

DrSR: LLM based Scientific Equation Discovery with Dual Reasoning from Data and Experience

符号回归是一种基本工具，用于从数据中发现可解释的数学表达式，并具有跨科学和工程领域的广泛应用。最近，大型语言模型（LLMS）在这项任务中表现出了很强的表现，利用嵌入式科学先验和推理能力超越传统方法。但是，现有的基于LLM的方法，例如LLM-SR，通常过度依赖内部先验，在方程生成过程中缺乏明确的数据理解和系统反射 ...

0 0 0 2025/06/23 arXiv:2506.04282v1 uaene

TF-Mamba: Text-enhanced Fusion Mamba with Missing Modalities for Robust Multimodal Sentiment Analysis

最近缺少模态的多模式情感分析（MSA）最近引起了越来越多的关注。尽管当前基于 Transformer 的方法利用密集的文本信息来维持模型鲁棒性，但它们的二次复杂性会阻碍有效的远程建模和多模式融合。为此，我们提出了一种新颖有效的文本增强融合曼巴（TF-mamba）框架，用于稳健的MSA，并缺失了模式 ...

0 0 0 2025/06/23 arXiv:2505.14329v1 huyang

ACT: Empowering Decision Transformer with Dynamic Programming via Advantage Conditioning

采用表达序列建模技术来执行行动的决策 Transformer （DT）已成为脱机政策优化的一种有希望的方法。但是，DT产生的动作以预期的未来回报为条件，众所周知，这会遇到一些弱点，例如对环境随机性的敏感性。为了克服DT的弱点，我们建议通过动态编程增强DT的能力 ...

0 0 0 2025/06/23 arXiv:2309.05915v2 qisia

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）