一译 —— 文档和论文翻译、对照阅读、讨论和社区

How to Train Long-Context Language Models (Effectively)

我们研究语言模型（LM）的持续训练和监督微调（SFT），以有效利用长上下文信息。我们首先建立一个可靠的评估协议来指导模型开发——我们使用一组广泛的长上下文任务，而不是困惑或简单的大海捞针（NIAH）测试，并在 SFT 后使用指令数据评估模型因为这可以更好地揭示长上下文能力。在我们强大的评估的支持下，我们进行了彻底的实验来决定继续预训练的数据组合、指令调整数据集和许多其他设计选择 ...

0 0 0 2025/06/26 arXiv:2410.02660v2 sarah

Gated Linear Attention Transformers with Hardware-Efficient Training

具有线性注意力的 Transformer 可以实现高效的并行训练，但同时可以表示为具有 2D（矩阵值）隐藏状态的 RNN，从而享受线性时间推理复杂性。然而，线性注意力通常不如普通的 softmax 注意力。此外，当前的线性注意力实现缺乏 I/O 感知，因此比高度优化的 softmax 注意力实现慢 ...

0 0 0 2025/06/26 arXiv:2312.06635v6 slowlyc2

Revisiting Feature Interactions from the Perspective of Quadratic Neural Networks for Click-through Rate Prediction

Hadamard产品（HP）长期以来一直是点击率（CTR）预测任务的基石，因为它的简单性，有效性和捕获没有其他参数的功能相互作用的能力。但是，其有效性的根本原因尚不清楚。在本文中，我们从二次神经网络（QNN）的角度重新访问了HP，该二次神经网络（QNN）利用二次交互术语来建模复杂的特征关系 ...

0 0 0 2025/06/26 arXiv:2505.17999v2 xuwenlong

OmniAvatar: Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation

在音频驱动的人类动画中已经取得了重大进展，而大多数现有方法主要集中在面部运动上，从而限制了它们以自然同步和流动性创建全身动画的能力。他们还以精确的迅速控制而挣扎，以获得细粒度。为了应对这些挑战，我们引入了Omniavatar，这是一种创新的音频驱动的全身视频生成模型，可通过提高LIP-Sync的精度和自然动作来增强人类动画 ...

0 0 0 2025/06/26 arXiv:2506.18866v1 KingYi

Multifaceted Evaluation of Audio-Visual Capability for MLLMs: Effectiveness, Efficiency, Generalizability and Robustness

多模式的大语言模型（MLLM）最近在处理和理解各种方式（例如文本，音频和视觉信号）的信息方面取得了巨大成功 ...

0 0 0 2025/06/26 arXiv:2504.16936v1 zhangqi33

DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection

由于其出色的有效性和效率，异常检测已在实际工业制造中获得了广泛的应用。但是，以前的基于生成的模型受到次优重建质量的限制，从而阻碍了它们的整体性能。我们介绍了一种新型的异常检测管道，包括重建子网络和分割子网络 ...

0 0 0 2025/06/26 arXiv:2303.08730v4 lkchenxi

Simple and Efficient Partial Graph Adversarial Attack: A New Perspective

随着图形神经网络的研究变得越来越密集和全面，它们的稳健性和安全性引起了极大的研究兴趣。现有的全局攻击方法将图中的所有节点视为其攻击目标。尽管现有方法取得了出色的成果，但仍有相当大的改进空间 ...

0 0 0 2025/06/26 arXiv:2308.07834v1 xixiaixixi

Instruction-augmented Multimodal Alignment for Image-Text and Element Matching

随着文本到图像（T2I）生成模型的快速发展，评估生成的图像和文本描述之间的语义一致性已成为一个重大的研究挑战。当前的方法，包括基于视觉问题回答的方法（VQA），仍然在精细粒度评估和图像文本对齐的精确量化方面挣扎。本文提出了一种改进的评估方法，称为图像文本和元素匹配（iMatch）的指定启动的多模式对齐（iMatch），该方法通过微调多模式大语言模型来评估图像文本语义对齐 ...

0 0 0 2025/06/26 arXiv:2504.12018v1 cheeryapp

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）