一译 —— 文档和论文翻译、对照阅读、讨论和社区

Transformer Explainer: Interactive Learning of Text-Generative Models

变形金刚彻底改变了机器学习，但它们的内部运作仍然不透明。我们提出了Transformer Inveller，这是一种互动可视化工具，旨在通过GPT-2模型来学习 Transformer 。我们的工具通过整合模型概述并促进跨数学操作和模型结构的抽象级别的平稳过渡来帮助用户理解复杂的 Transformer 概念 ...

0 0 0 2025/09/29 arXiv:2408.04619v1 HelytYu

Anomaly Detection and Generation with Diffusion Models: A Survey

异常检测（AD）通过确定偏离现实世界数据中既定规范的意外模式，在包括网络安全，金融，医疗保健和工业制造中起关键作用。深度学习，特别是扩散模型（DMS）的最新进展引起了人们的兴趣，因为它们能够学习复杂的数据分布并生成高保真样本，从而为无监督的AD提供了强大的框架。在这项调查中，我们通过扩散模型（ADGDM）全面回顾了异常检测和产生，对理论基础和实际实现以及跨越图像，视频，时间序列，表格和多模式数据进 ...

0 0 0 2025/09/29 arXiv:2506.09368v1 Sy127

Selective Masking Adversarial Attack on Automatic Speech Recognition Systems

广泛的研究表明，自动语音识别（ASR）系统容易受到音频对抗攻击的影响。当前的攻击主要集中在单源场景上，忽略了两个人同时讲话的双源场景。为了弥合差距，我们提出了选择性掩盖对抗性攻击，即SMA攻击，该攻击可确保选择一个音频源以识别，而另一个音频源在双源场景中被静音 ...

0 0 0 2025/09/29 arXiv:2504.04394v1 Hermit127

MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling

尽管最近进步，但长期的视频生成框架仍然受到重大局限性：辅助能力差，次优质量和表现力有限。为了减轻这些局限性，我们建议Mavis，Mavis是一个端到端的多代理协作框架，用于长期视频讲故事。 Mavis在多个阶段策划了专门的代理，包括脚本编写，镜头设计，角色建模，钥匙帧生成，视频动画和音频生成 ...

0 0 0 2025/09/29 arXiv:2508.08487v3 smallz

Language Models that Think, Chat Better

通过可验证的奖励（RLVR）的增强学习通过在数学和代码等可验证域中使用基于规则的奖励来改善语言模型推理。但是，RLVR导致对开放式任务的概括有限，例如编写大纲或制定餐食计划 - 人类经常推理。本文表明，RLVR范式在可验证的域之外是有效的，并以** m ** odel-whorded ** t ** hinking（** rlmt **）引入** rl **，以提供通用聊天能力 ...

0 0 0 2025/09/29 arXiv:2509.20357v1 wozengyi

RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

机器人行为综合，即理解多模态输入并为机器人生成精确的物理控制的问题，是体现人工智能的重要组成部分。尽管在应用多模态大语言模型进行高级理解方面取得了成功，但将这些概念性理解转化为详细的机器人动作，同时实现跨各种场景的泛化仍然具有挑战性。在本文中，我们提出了一种用于广义机器人行为综合的树结构多模式代码生成框架 ...

0 0 0 2025/09/29 arXiv:2402.16117v1 lijunbaai

Self-Adaptive In-Context Learning: An Information Compression Perspective for In-Context Example Selection and Ordering

尽管内部文化学习（ICL）的表现不佳，但随机示例示例作为背景仍然是一种常见的做法。本文提倡ICL的新原则：自适应内在学习。引入了自适应机制，以帮助每个样本找到一个内在的示例置换（i ...

0 0 0 2025/09/29 arXiv:2212.10375v2 Cauchy

Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration

多模式LLMS（MLLM）的迅速发展也提出了有效知识编辑的重大挑战。当前的方法，包括内在知识编辑和外部知识措施，每种方法都具有优势和劣势，在应用于MLLM时努力平衡可靠性，一般性和局部性的所需属性。在本文中，我们提出了一种新型的多式模式编辑方法，该方法建立了统一的观点和范式的固有知识编辑和外部知识措施 ...

0 0 0 2025/09/29 arXiv:2409.19872v3 15966829631

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）