一译 —— 文档和论文翻译、对照阅读、讨论和社区

Exploring $\ell_0$ Sparsification for Inference-free Sparse Retrievers

随着对效率的需求，信息检索开发了一个稀疏检索的分支，进一步朝着无推理的检索前进，其中文档在索引时间内编码，并且没有查询模型推导。现有的稀疏检索模型依赖于拖律的正则化来进行稀疏，而该机制最初是为暹罗编码器设计的，但在不对称的无推理场景中被认为是次优的。以前的尝试适应无推理方案的尝试已限于基于规则的方法，从而使稀疏方法的潜力在很大程度上没有探索 ...

0 0 0 2025/04/22 arXiv:2504.14839v1 fc

From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection

工具调用通过集成外部工具改变了大型语言模型（LLM）应用程序，显着增强了它们在不同任务中的功能。然而，这种集成也引入了新的安全漏洞，特别是LLM的工具调度机制，尚未得到广泛研究。为了填补这一空白，我们提出了 ToolCommander，这是一种新颖的框架，旨在通过对抗性工具注入来利用 LLM 工具调用系统中的漏洞 ...

0 0 0 2025/04/22 arXiv:2412.10198v2 hhhhh

TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment

图像理解的最新进步受益于广泛使用Web图像文本对。但是，尽管有大量的Web视频文本数据，视频理解仍然是一个挑战。这个困难主要是由于视频的固有复杂性和最近在Web收集的视频TEXT数据集中的效率低下的语言监督引起的 ...

0 0 0 2025/04/22 arXiv:2405.13911v2 麦兜

Can Textual Semantics Mitigate Sounding Object Segmentation Preference?

音频视频分割（AVS）任务旨在使用音频提示在视觉空间中进行启发对象。但是，在这项工作中，人们认识到，以前的AVS方法非常依赖于与听觉对象相关的有害细分偏好，而不是精确的音频指导。我们认为，主要原因是，与视觉相比，音频缺乏强大的语义，尤其是在多源的声音场景中，导致视觉空间的音频指导较弱 ...

0 0 0 2025/04/22 arXiv:2407.10947v1 iris

Video Anomaly Detection with Motion and Appearance Guided Patch Diffusion Model

一类视频异常检测的最新努力是利用扩散模型并将任务视为一代问题，在该问题中，训练扩散模型以专门恢复正常模式，从而将异常模式报告为异常值。然而，现有尝试忽略了异常的各种形态，并且无论监视视频中的异常对象通常相对较小，都可以在功能水平上预测正常样本。为了解决这个问题，提出了一种基于补丁的新型扩散模型，专门设计用于捕获细粒的本地信息 ...

0 0 0 2025/04/22 arXiv:2412.09026v1 qzfm

Misusing Tools in Large Language Models With Visual Adversarial Examples

大型语言模型（LLM）通过使用工具和处理多种方式的能力增强了。这些新功能带来了新的好处以及新的安全风险。在这项工作中，我们表明攻击者可以使用视觉对抗性示例引起攻击者设计的工具使用情况 ...

0 0 0 2025/04/22 arXiv:2310.03185v1 hhhhh

Security Attacks on LLM-based Code Completion Tools

大型语言模型（LLMS）的快速发展具有显着高级的代码完成功能，从而产生了新一代基于LLM的代码完成工具（LCCTS）。与通用LLM不同，这些工具具有独特的工作流程，将多个信息源集成为输入和优先级代码建议，而不是自然语言互动，这引入了独特的安全挑战。此外，LCCT通常依靠专有代码数据集进行培训，从而引起人们对敏感数据潜在暴露的担忧 ...

0 0 0 2025/04/22 arXiv:2408.11006v4 hhhhh

Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs

视觉语言大型模型在各种多模式任务中取得了巨大的成功，但是由于视频数据的固有复杂性和计算需求，将它们应用于视频理解仍然具有挑战性。尽管基于培训的视频LLM提供高性能，但他们通常需要大量资源进行培训和推理。相反，无训练方法通过在没有额外培训的情况下调整预先训练的图像-LLMS模型来提供更有效的替代方法，但是由于视频框架产生了大量的视觉 Token ，它们会面临推理效率瓶颈 ...

0 0 0 2025/04/22 arXiv:2410.10441v2 麦兜

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）