一译 —— 文档和论文翻译、对照阅读、讨论和社区

Compute Can't Handle the Truth: Why Communication Tax Prioritizes Memory and Interconnects in Modern AI Infrastructure

现代AI工作负载，例如大语言模型（LLM）和检索功能增强的生成（RAG）对记忆，通信带宽和资源灵活性施加了严重的需求。以GPU为中心的传统体系结构由于增加了GPU间的沟通开销而难以扩展。该报告介绍了关键的AI概念，并解释了变形金刚在LLMS中如何彻底改变数据表示 ...

0 0 0 2025/09/21 arXiv:2507.07223v2 yli

Analysis of Attention in Video Diffusion Transformers

我们对视频扩散 Transformer （VDITS）中的注意力进行了深入分析，并报告了许多新发现。我们在VDIT中确定了注意力的三个关键特性：结构，稀疏性和水槽。结构：我们观察到，不同VDIT的注意力模式在不同提示之间表现出相似的结构，并且我们可以利用注意力模式的相似性通过自我发场地图传输来解锁视频编辑 ...

0 0 0 2025/09/21 arXiv:2504.10317v1 allen1000

Improving the Trainability of Deep Neural Networks through Layerwise Batch-Entropy Regularization

培训深层神经网络是一项非常艰巨的任务，尤其是具有挑战性的是如何适应体系结构以提高训练有素的模型的性能。我们可以发现，有时，浅网络比深网概括得更好，并且增加更多层会导致更高的培训和测试错误。深层残留学习框架通过将跳过连接添加到几个神经网络层来解决此退化问题 ...

0 0 0 2025/09/21 arXiv:2208.01134v1 boboshen

DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and Depth from Monocular Videos

尽管从单眼视频中自制的深度估计中已经取得了很大的进步，但大多数现有方法通常将视频中的所有对象都视为静态实体，但是却违反了现实世界场景的动态性质，并且未能模拟移动对象的几何图形和运动。在本文中，我们提出了一种自制的方法，可以从单眼视频中共同学习3D运动和深度。我们的系统包含一个预测深度的深度估计模块，以及一个新的分解对象3D运动（DO3D）估计模块，以预测自我动作和3D对象运动 ...

0 0 0 2025/09/21 arXiv:2403.05895v1 LiuAobin

PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting

文本到图像（T2I）扩散模型的最新进展表明，在产生高保真图像方面具有显着的功能。但是，这些模型通常很难忠实地渲染复杂的用户提示，尤其是在属性绑定，否定和组成关系等方面。这导致用户意图与生成的输出之间的不匹配 ...

0 0 0 2025/09/21 arXiv:2509.04545v4 smallz

ReFlex: Text-Guided Editing of Real Images in Rectified Flow via Mid-Step Feature Extraction and Attention Adaptation

整流的流程到图像模型超过图像质量和文本对齐中的扩散模型，但是对实体编辑的改编为改装仍然具有挑战性。我们通过分析多模式 Transformer 块的中间表示并识别三个关键特征，提出了一种新的实体编辑方法，以回流。为了从具有足够的结构保存的真实图像中提取这些特征，我们利用中步的潜在，仅倒入中部 ...

0 0 0 2025/09/21 arXiv:2507.01496v1 smallz

Can Indirect Prompt Injection Attacks Be Detected and Removed?

迅速注射攻击通过误导其偏离原始输入说明并执行恶意注入的说明来操纵大型语言模型（LLMS），因为它们具有跟随说明的功能和无法区分原始输入说明并进行了恶意注入的说明。为了防止这种攻击，最近的研究开发了各种检测机制。如果我们专门将自己限制在执行检测而不是直接防御的作品中，则大多数人专注于直接的快速注射攻击，而间接场景的作品很少，在外部工具（例如搜索引擎）中，间接指令是间接注入的说明 ...

0 0 0 2025/09/21 arXiv:2502.16580v4 hhhhh

Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?

指导调整的大语言模型（LLMS）在众多实际应用中显示出令人印象深刻的结果，但是它们缺乏在计算机科学其他领域（尤其是指令和数据明确分离）中常见的基本安全功能。这使它们容易受到诸如间接及时注射之类的操作，通常不适合安全至关重要的任务。令人惊讶的是，目前尚无确定的定义或基准来量化这一现象 ...

0 0 0 2025/09/21 arXiv:2403.06833v3 hhhhh

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）