尽管自我监督的方法已导致视觉表示学习的快速进步,但这些方法通常使用相同的镜头处理对象和场景。在本文中,我们专注于对物体和场景的学习表示,这些对象和场景保留了它们之间的结构。通过观察到在表示空间中接近视觉上相似的对象的动机,我们认为场景和对象应该基于其组成性遵循层次结构 ...
0 0 0 2025/06/30 arXiv:2212.00653v1 15966829631
为了安全有效地浏览复杂的交通情况,自动驾驶汽车需要具有预测周围车辆未来运动的能力。多种相互作用的代理,驾驶员行为的多模式性质以及任务涉及的固有不确定性使周围车辆的运动预测成为具有挑战性的问题。在本文中,我们提出了一个LSTM模型,用于在高速公路上对周围车辆的相互作用感知运动预测 ...
0 0 0 2025/06/30 arXiv:1805.05499v1 wang12
尽管Colpali/colqwen2在可视化文档检索(VDR)中的性能很强,但它将每个页面编码为多个补丁级嵌入式,并导致过多的内存使用情况。这项实证研究研究了以最小的性能降解减少每页粘合嵌入的方法。我们评估了两种 Token 还原策略: Token 修剪和 Token 合并 ...
0 0 0 2025/06/30 arXiv:2506.04997v1 arthur
神经音频编解码器(NACS)作为音频压缩的关键技术以及语音语言模型的音频表示,引起了极大的关注。虽然主流NAC模型主要基于卷积,但具有纯粹基于 Transformer 的NAC的性能仍未得到探索。本文介绍了基于 Transformer 的简单流单编解码器TS3-Codec ...
0 0 0 2025/06/30 arXiv:2411.18803v2 lizhipeng99
神经音频编解码器最近因其压缩高保真音频并生成可用于下游生成建模任务中的离散 Token 的能力而获得了吸引力。但是,领先的方法通常依赖于资源密集型模型和多量式架构,从而导致了相当大的计算开销和限制的现实世界适用性。在本文中,我们提出了SQCodec,这是一种轻巧的神经音频编解码器,利用单个量化器来解决这些限制 ...
0 0 0 2025/06/30 arXiv:2504.04949v1 lizhipeng99
对分布(OOD)数据的概括是现代机器学习中的核心问题之一。最近,提出算法的尝试激增,主要基于提取不变特征的想法。尽管在直觉上合理,但对哪种不变性可以保证的理论理解仍然有限,并且对任意分布的概括显然是不可能的 ...
0 0 0 2025/06/30 arXiv:2106.04496v3 15966829631
用于优化可执行文件的调试信息的可用性在很大程度上可以减轻关键任务,例如崩溃分析。源级别的调试者使用此信息以源代码来显示程序状态,即使优化更改程序结构也可以在其上进行推理。最近的一些努力提出了有效的方法,以识别不正确的调试信息实例,通过向用户呈现不一致的程序状态,这可能会误导用户 ...
0 0 0 2025/06/30 arXiv:2211.09568v1 lpfgss
我们在视频中介绍了一个开放世界对象的新任务:给定的文本描述或一个指定目标对象的图像示例,目的是列举视频中目标对象的所有唯一实例。在拥挤的场景和类似物体的拥挤场景中,此任务尤其具有挑战性,避免双重计数和识别重新出现至关重要。为此,我们做出以下贡献:我们为此任务介绍了一个模型Countvid ...
0 0 0 2025/06/30 arXiv:2506.15368v1 sssss

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)