一译 —— 文档和论文翻译、对照阅读、讨论和社区

KAG-Thinker: Interactive Thinking and Deep Reasoning in LLMs via Knowledge-Augmented Generation

在本文中，我们介绍了Kag-Thinker，这是一种基于参数轻型语言模型（LLM）的新型人类般的推理框架。我们的方法增强了在LLMS中特定于领域的知识基础（KBS）上提问的思维过程（Q \＆A）任务的逻辑连贯性和上下文一致性。该框架通过建立结构化思维过程来模拟人类的认知机制来处理复杂问题 ...

0 0 0 2025/06/27 arXiv:2506.17728v2 keve

Security of AI Agents

大型语言模型推动了人工智能代理的研究和开发。人工智能代理可以充当智能助手，代表用户完成任务，并能够访问工具并能够在其环境中执行命令。通过研究和体验典型人工智能代理的工作流程，我们对它们的安全性提出了一些担忧。用于构建代理的框架或旨在改进代理的研究都没有解决这些潜在的漏洞 ...

0 0 0 2025/06/27 arXiv:2406.08689v3 lurenv

Contextual Agent Security: A Policy for Every Purpose

判断动作的安全需要了解行动发生的情况。对于在各种情况下采取行动的人类代理人，这似乎很明显：执行诸如电子邮件删除之类的动作可能会根据电子邮件的内容，目标（例如 ...

0 0 0 2025/06/27 arXiv:2501.17070v3 lurenv

AGENTFUZZER: Generic Black-Box Fuzzing for Indirect Prompt Injection against LLM Agents

大语言模型（LLM）的强大计划和推理能力促进了能够利用外部工具并与日益复杂的环境进行交互的基于代理的系统的开发。但是，这些强大的功能还引入了关键的安全风险：间接提示注入，这是一种复杂的攻击向量，通过操纵上下文信息而不是直接用户提示来损害这些代理，LLM的核心。在这项工作中，我们提出了一个通用的黑盒模糊框架，旨在自动发现和利用不同LLM代理之间的间接及时注射漏洞 ...

0 0 0 2025/06/27 arXiv:2505.05849v4 hhhhh

Latent Action Pretraining from Videos

我们引入了通用动作模型（LAPA）的潜在动作预处理，这是一种无监督的视觉语言行动（VLA）模型的方法，而无需地面真相机器人动作标签。现有的视觉语言动作模型需要人类遥控器在预审进过程中通常收集的动作标签，这显着限制了可能的数据源和规模。在这项工作中，我们提出了一种从没有机器人动作标签的互联网规模视频中学习的方法 ...

0 0 0 2025/06/27 arXiv:2410.11758v2 dqyzhwk

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

尽管由大型语言模型 (LLM) 提供支持的基于 LLM 的代理可以使用外部工具和内存机制来解决复杂的现实任务，但它们也可能会引入严重的安全漏洞。然而，现有文献并未全面评估针对基于 LLM 的代理的攻击和防御。为了解决这个问题，我们引入了 Agent Security Bench (ASB)，这是一个综合框架，旨在形式化、基准测试和评估基于 LLM 的代理的攻击和防御，包括 10 个场景（例如： . ...

0 0 0 2025/06/27 arXiv:2410.02644v4 lurenv

LeVo: High-Quality Song Generation with Multi-Preference Alignment

大型语言模型（LLM）和音频语言模型的最新进展已大大改善了音乐的发电，尤其是歌词到歌曲的一代。但是，现有的方法仍然在歌曲的复杂组成和高质量数据的稀缺性方面困难，从而导致声音质量，音乐性，跟随教学和声音启动和谐的限制。为了应对这些挑战，我们介绍了LEVO，这是一个基于LM的框架，由LELM和音乐编解码器组成 ...

0 0 0 2025/06/27 arXiv:2506.07520v2 wkw1220632

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

近年来，在多模式理解模型和图像产生模型中都取得了显着的进步。尽管取得了各自的成功，但这两个领域还是独立发展的，导致了独特的建筑范式：尽管基于自动进程的架构占多模式的理解，但基于扩散的模型已成为图像生成的基石。最近，人们对开发整合这些任务的统一框架的兴趣越来越大 ...

0 0 0 2025/06/27 arXiv:2505.02567v3 alex666

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）