一译 —— 文档和论文翻译、对照阅读、讨论和社区

Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation

黑盒微调是一种新兴接口，用于使最先进的语言模型适应用户需求。然而，此类访问也可能让恶意行为者破坏模型安全。为了演示防御微调接口的挑战，我们引入了隐蔽的恶意微调，这是一种通过微调同时逃避检测来损害模型安全的方法 ...

0 0 0 2025/01/13 arXiv:2406.20053v1 liukai

Unified Active Retrieval for Retrieval Augmented Generation

在检索增强生成（RAG）中，检索并不总是有帮助，并且将其应用于每条指令也不是最优的。因此，决定是否检索对于RAG来说至关重要，这通常称为Active Retrieval。然而，现有的主动检索方法面临两个挑战：1. ...

0 0 0 2025/01/13 arXiv:2406.12534v4 15966829631

Not All Contexts Are Equal: Teaching LLMs Credibility-aware Generation

大型语言模型的快速发展导致了检索增强生成（RAG）的广泛采用，它整合外部知识来缓解知识瓶颈并减轻幻觉。然而，现有的RAG范式不可避免地受到检索阶段引入的有缺陷信息的影响，从而降低了生成结果的可靠性和正确性。在本文中，我们提出了可信度感知生成（CAG），这是一个普遍适用的框架，旨在减轻 RAG 中缺陷信息的影响 ...

0 0 0 2025/01/13 arXiv:2404.06809v3 15966829631

AI Control: Improving Safety Despite Intentional Subversion

随着大型语言模型 (LLM) 变得更加强大并且部署更加自主，防止它们造成有害结果将变得越来越重要。为此，研究人员研究了多种安全技术，例如 ...

0 0 0 2025/01/13 arXiv:2312.06942v5 liukai

AIM 2024 Challenge on UHD Blind Photo Quality Assessment

我们推出了 AIM 2024 UHD-IQA 挑战赛，该竞赛旨在推进现代高分辨率照片的无参考图像质量评估 (NR-IQA) 任务。该挑战赛基于最近发布的 UHD-IQA 基准数据库，该数据库包含 6,073 张 UHD-1 (4K) 图像，并附有专家评分者的感知质量评级。与之前的 NR-IQA 数据集不同，UHD-IQA 专注于具有卓越技术质量的高度美观的照片，反映了数字摄影不断提高的标准 ...

0 0 0 2025/01/13 arXiv:2409.16271v1 rich_eggs

Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment

尽管现有的提示方法取得了显着的进步，例如上下文学习和大型语言模型（LLM）的思想链，但它们仍然面临与各种偏见相关的挑战。传统的去偏差方法主要集中在模型训练阶段，包括基于数据增强和重新加权的方法，但它们与 LLM 固有的复杂偏差作斗争。为了解决这些局限性，利用结构因果模型揭示了提示方法背后的因果关系，并提出了一种基于前门调整的新型因果提示方法，以有效减轻 LLM 的偏差 ...

0 0 0 2025/01/13 arXiv:2403.02738v3 rookie

Model Merging by Uncertainty-Based Gradient Matching

在不同数据集上训练的模型可以通过参数的加权平均来合并，但它为什么有效以及何时会失败？在这里，我们将加权平均的不准确性与梯度的不匹配联系起来，并提出了一种新的基于不确定性的方案，通过减少不匹配来提高性能。这种联系还揭示了其他方案中的隐含假设，例如平均、任务算术和费舍尔加权平均。我们的新方法在性能和超参数的鲁棒性方面为大型语言模型和视觉转换器提供了一致的改进 ...

0 0 0 2025/01/13 arXiv:2310.12808v2 liukai

Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles

在这项研究中，我们深入研究了一个新兴的优化挑战，涉及只能通过排名预言机来衡量的黑盒目标函数——这种情况在现实场景中经常遇到，特别是当函数由人类法官评估时。此类挑战的灵感来自人类反馈强化学习 (RLHF)，这是一种最近采用的方法，用于使用人类指导来增强大型语言模型 (LLM) 的性能。我们引入了 ZO-RankSGD，这是一种创新的零阶优化算法，旨在解决该优化问题，并附有理论保证 ...

0 0 0 2025/01/13 arXiv:2303.03751v3 liukai

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）