一译 —— 文档和论文翻译、对照阅读、讨论和社区

SageAttention2++: A More Efficient Implementation of SageAttention2

注意效率至关重要，因为它的时间复杂性随序列长度四倍地增长。 SageAttention2通过利用量化来加速矩阵乘法（MATMUL）来解决此问题。为了进一步加速sageattention2，我们建议利用FP16中积累的FP8矩阵的更快指导 ...

0 0 0 2025/07/17 arXiv:2505.21136v3 felixslu

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

在文本到图像生成中，对主题身份和语义属性（姿势，样式，照明）实现细粒度的控制，尤其是对于多个受试者，经常会破坏扩散 Transformer （DITS）的编辑性和连贯性。许多方法引入文物或属于属性纠缠。为了克服这些挑战，我们提出了一种新型的多主体受控生成模型X versevers ...

0 0 0 2025/07/17 arXiv:2506.21416v1 wuyangecit

FinArena: A Human-Agent Collaboration Framework for Financial Market Analysis and Forecasting

为了改善股票趋势预测并支持个性化的投资决策，本文提出了一种新型的人类代理协作框架Finarena。受专家（MOE）方法的混合启发，Finarena结合了多模式财务数据分析与用户互动。人类模块具有交互式界面，可捕获个人风险偏好，从而允许个性化的投资策略 ...

0 0 0 2025/07/17 arXiv:2503.02692v1 yang1young

RayTran: 3D pose estimation and shape reconstruction of multiple objects from videos with ray-traced transformers

我们为RGB视频提供了基于 Transformer 的神经网络体系结构，用于多对象3D重建。它依靠两种代表其知识的替代方法：作为特征的全局3D网格和一系列特定视图的2D网格。我们通过专用双向注意机制在两者之间逐步交换信息 ...

0 0 0 2025/07/17 arXiv:2203.13296v2 gonghaibin

Test-Time Adaptation with Perturbation Consistency Learning

当前，预训练的语言模型（PLM）不能很好地应对分配转移问题，从而导致对训练集训练的模型在实际测试方案中失败。为了解决此问题，测试时间适应（TTA）显示出巨大的潜力，它更新了模型参数，以适合测试时间。现有的TTA方法依赖于设计良好的辅助任务或基于伪标签的自我训练策略 ...

0 0 0 2025/07/17 arXiv:2304.12764v1 lin3

Automate Strategy Finding with LLM in Quant Investment

尽管金融交易深度学习取得了重大进展，但现有模型往往面临不稳定和高度不确定性，阻碍了其实际应用。利用大型语言模型（LLM）和多代理架构的进步，我们提出了一种用于投资组合管理和阿尔法挖掘中的定量股票投资的新颖框架。我们的框架通过整合 LLM 来生成多样化的阿尔法并采用多代理方法来动态评估市场状况来解决这些问题 ...

0 0 0 2025/07/17 arXiv:2409.06289v3 yang1young

Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning

在各个领域实现一致的高质量机器翻译（MT）仍然是一个重大挑战，这主要是由于各个域中可用的有限且不平衡的并行训练数据。尽管大型语言模型（LLM）表现出了令人印象深刻的一般理解和发电能力，但它们在多域MT中的潜力却没有探索。我们为多域翻译建立了全面的基准，其中包括25个德国$ \ leftrightArrow $英语和22个中文$ \ leftrightarrow $英语测试套件，分别覆盖15个域 . ...

0 0 0 2025/07/17 arXiv:2410.02631v1 ck

Rethinking Gating Mechanism in Sparse MoE: Handling Arbitrary Modality Inputs with Confidence-Guided Gate

在现实世界多模式学习方案中，有效地管理缺失的模式是一个基本挑战，在这种情况下，数据不完整通常是由系统的收集错误或传感器失败引起的。稀疏的Experts（SMOE）架构具有自然处理多模式数据的潜力，而个人专业的专家专门采用不同的方式。但是，现有的SMOE方法通常缺乏适当的处理缺失方式的能力，从而导致性能下降和在现实世界应用中的概括不良 ...

0 0 0 2025/07/17 arXiv:2505.19525v1 huyang

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）