尽管动作识别系统在分布测试点上进行评估时可以实现最佳性能,但它们很容易受到测试数据中意外分布变化的影响。然而,迄今为止,视频动作识别模型针对常见分布变化的测试时适应性尚未得到证实。我们建议通过一种针对时空模型的方法来解决这个问题,该方法能够逐步适应单个视频样本。它包含一种特征分布对齐技术,该技术将测试集统计数据的在线估计与训练统计数据对齐。我们进一步增强了同一测试视频样本的时间增强视图的预测一致性。对三个基准动作识别数据集的评估表明,我们提出的技术与架构无关,并且能够显着提高最先进的卷积架构 TANet 和 Video Swin Transformer 的性能。我们提出的方法在单个分布变化的评估和随机分布变化的挑战性情况下都表现出了比现有测试时间适应方法显着的性能增益。代码可在 \url{此 https URL} 处获取 ...

0 0 0 0 2026/03/03 arXiv:2211.15393v3 dabanqiao

半结构化文档集成了以各种且通常不规则的布局排列的各种交错数据元素(例如表格、图表、分层段落)。这些文档在各个领域被广泛观察,并占现实世界数据的很大一部分。然而,由于三个主要技术挑战,现有方法难以支持对这些文档的自然语言问答:(1)通过 OCR 等技术提取的元素通常是支离破碎的,并且剥离了其原始语义上下文,使得它们不足以进行分析。 (2)现有方法缺乏有效的表示来捕获文档内的层次结构(例如,将表格与嵌套章节标题相关联)并保留布局特定的区别(例如,区分侧边栏和主要内容)。 (3) 回答问题通常需要检索和对齐分散在多个区域或页面的相关信息,例如将描述性段落链接到位于文档其他位置的表格单元格。为了解决这些问题,我们提出了 MoDora,这是一个由 LLM 驱动的系统,用于半结构化文档分析。首先,我们采用局部对齐聚合策略将 OCR 解析的元素转换为布局感知组件,并对具有分层标题或非文本元素的组件进行特定于类型的信息提取。其次,我们设计组件相关树(CCTree)来分层组织组件,通过自下而上的级联汇总过程显式地建模组件间关系和布局区别。最后,我们提出了一种问题类型感知检索策略,该策略支持(1)用于基于位置的检索的基于布局的网格分区和(2)用于基于语义的检索的 LLM 引导修剪。实验表明,MoDora 的准确率比基线高出 5.97%-61.07%。代码位于此 https URL ...

0 0 0 0 2026/03/03 arXiv:2602.23061v2 moshmode

强化学习 (RL) 的后训练通过测试时间扩展显着改善了大型语言模型 (LLM) 的推理能力。然而,通过冗长的原理将这种范式扩展到多模式 LLM (MLLM)只会产生有限的感知收益,甚至会降低性能。我们提出了强化注意力学习(RAL),这是一种策略梯度框架,可以直接优化内部注意力分布而不是输出 Token 序列。通过将优化从生成内容转向参加地点,RAL 促进了有效的信息分配并改善了复杂多式联运输入的基础。跨不同图像和视频基准的实验显示,与 GRPO 和其他基准相比,其获得了一致的增益。我们进一步引入了策略注意力蒸馏,证明转移潜在注意力行为比标准知识蒸馏产生更强的跨模式对齐。我们的结果将注意力政策定位为多模式后培训的原则性和通用替代方案 ...

0 0 1 2 2026/03/03 arXiv:2602.04884v2 hwrabbit

在流媒体设置中部署现代语音语言模型 (SpeechLM) 需要系统提供低延迟、高吞吐量和流媒体能力的有力保证。现有系统无法灵活高效地支持多种模型。我们推出了 VoxServe,这是一个用于 SpeechLM 的统一服务系统,可优化流媒体性能。 VoxServe 引入了模型执行抽象,将模型架构与系统级优化解耦,从而在单个框架内支持多种 SpeechLM 架构。在此抽象基础上,VoxServe 实现了流感知调度和异步推理管道,以提高端到端效率。对多个现代 SpeechLM 的评估表明,VoxServe 在相当的延迟下实现了比现有实现高 10-20 倍的吞吐量,同时保持了高流媒体可行性。 VoxServe 的代码可在此 https URL 获取 ...

0 0 0 0 2026/03/03 arXiv:2602.00269v1 13724122396

尽管近年来语音合成领域取得了快速进展,但开源歌声合成(SVS)系统在工业部署方面仍然面临重大障碍,特别是在鲁棒性和零样本泛化方面。在本报告中,我们介绍了SoulX-Singer,这是一个高质量的开源SVS系统,其设计时考虑了实际部署的考虑。 SoulX-Singer 支持以符号乐谱 (MIDI) 或旋律表示为条件的可控歌唱生成,从而在现实世界的制作工作流程中实现灵活且富有表现力的控制。该系统经过超过 42,000 小时的声音数据训练,支持中文、英语和粤语,并在不同的音乐条件下始终实现跨语言的最先进的合成质量。此外,为了在实际场景中可靠地评估零样本SVS性能,我们构建了SoulX-Singer-Eval,这是一个严格分离训练测试的专用基准测试,有助于在零样本设置下进行系统评估 ...

0 0 0 0 2026/03/03 arXiv:2602.07803v1 Du

端到端自动驾驶在交通行业具有巨大潜力。然而,自动决策过程缺乏透明度和可解释性阻碍了其在实践中的工业采用。早期已经有一些尝试使用注意力图或成本量来获得更好的模型可解释性,但这对普通乘客来说很难理解。为了弥补这一差距,我们提出了一种基于端到端 Transformer 的架构 ADAPT(动作感知驾驶字幕 Transformer ),它为自主车辆控制和行动的每个决策步骤提供用户友好的自然语言叙述和推理。 ADAPT 通过共享视频表示联合训练驾驶字幕任务和车辆控制预测任务。 BDD-X(Berkeley DeepDrive eXplanation)数据集上的实验证明了 ADAPT 框架在自动指标和人工评估方面的最先进性能。为了说明所提出的框架在实际应用中的可行性,我们构建了一个新颖的可部署系统,该系统以原始汽车视频作为输入并实时输出动作叙述和推理。代码、模型和数据可从此 https URL 获取 ...

0 0 0 0 2026/03/03 arXiv:2302.00673v1 chenlei

谱聚类是无监督数据分析中领先且流行的技术。它的两个主要限制是频谱嵌入的可扩展性和泛化(即样本外扩展)。在本文中,我们介绍了一种克服上述缺点的深度学习谱聚类方法。我们的网络(我们称之为 SpectralNet)学习一个映射,该映射将输入数据点嵌入到其关联图拉普拉斯矩阵的特征空间中,然后对它们进行聚类。我们使用涉及约束随机优化的程序来训练 SpectralNet。随机优化允许它扩展到大型数据集,而使用专用输出层实现的约束允许我们保持网络输出正交。此外,SpectralNet 学习的图自然地将光谱嵌入推广到未见过的数据点。为了进一步提高聚类的质量,我们使用 Siamese 网络将标准的成对高斯相似度替换为从未标记数据中获取的相似度。通过将网络应用于例如标准自动编码器生成的代码表示,可以实现额外的改进。我们的端到端学习过程是完全无人监督的。此外,我们应用 VC 维度理论来推导出 SpectralNet 大小的下限。路透社数据集报告了最先进的聚类结果。我们的实现可通过此 https URL 公开获得 ...

0 0 0 0 2026/03/03 arXiv:1801.01587v6 wonglliam

目前的推理缩放方法,例如自一致性和 Best-of-N,已被证明可以有效提高 LLM 在复杂推理任务上的准确性。然而,这些方法在很大程度上依赖于候选人回答的质量,并且当所有候选人都不正确时无法产生正确的答案。在本文中,我们提出了一种新颖的推理扩展策略,即基于 CoT 的合成器,该策略利用 CoT 推理,通过分析多个候选响应中的补充信息来合成更好的答案,即使所有候选响应都有缺陷。为了实现轻量级且经济高效的实施,我们引入了自动数据生成管道,可以创建不同的训练数据。这使得较小的 LLM 可以利用这些数据进行训练,从而提高大型模型(包括基于 API 的 LLM )的推理准确性。具有七个策略模型的四个基准数据集的实验结果表明,我们的方法显着提高了性能,在 MATH 数据集上,Llama3-8B 提高了 11.8%,GPT-4o 提高了 10.3%。相应的训练数据和代码可在此 https URL 上公开获取 ...

0 0 0 0 2026/03/03 arXiv:2501.01668v2 manlinghun

对高维数据集进行聚类很困难,因为在高维空间中点间距离的信息量变得更少。我们提出了一种联合执行非线性降维和聚类的聚类算法。数据通过深度自动编码器嵌入到低维空间中。自动编码器作为聚类过程的一部分进行优化。由此产生的网络会产生集群数据。所提出的方法不依赖于地面实况集群数量的先验知识。联合非线性降维和聚类被表述为全局连续目标的优化。因此,我们避免了对先前聚类算法特征的目标进行离散重新配置。对多个领域的数据集进行的实验表明,所提出的算法优于最先进的聚类方案,包括最近使用深度网络的方法 ...

0 0 0 0 2026/03/03 arXiv:1803.01449v1 wonglliam

在本文中,我们提出了深度表示和图像集群的联合无监督学习(JULE)的循环框架。在我们的框架中,聚类算法中的连续操作被表示为循环过程中的步骤,堆叠在卷积神经网络(CNN)输出的表示之上。在训练过程中,图像聚类和表示联合更新:图像聚类在前向传递中进行,而表示学习在后向传递中进行。我们这个框架背后的关键思想是,良好的表示有利于图像聚类,聚类结果为表示学习提供监督信号。通过将两个过程集成到具有统一加权三元组损失的单个模型中并对其进行端到端优化,我们不仅可以获得更强大的表示,而且可以获得更精确的图像集群。大量的实验表明,我们的方法在跨各种图像数据集的图像聚类方面优于最先进的方法。此外,当转移到其他任务时,学习到的表示可以很好地概括 ...

0 0 0 0 2026/03/03 arXiv:1604.03628v3 wonglliam