为了安全有效地浏览复杂的交通情况,自动驾驶汽车需要具有预测周围车辆未来运动的能力。多种相互作用的代理,驾驶员行为的多模式性质以及任务涉及的固有不确定性使周围车辆的运动预测成为具有挑战性的问题。在本文中,我们提出了一个LSTM模型,用于在高速公路上对周围车辆的相互作用感知运动预测 ...
尽管Colpali/colqwen2在可视化文档检索(VDR)中的性能很强,但它将每个页面编码为多个补丁级嵌入式,并导致过多的内存使用情况。这项实证研究研究了以最小的性能降解减少每页粘合嵌入的方法。我们评估了两种 Token 还原策略: Token 修剪和 Token 合并 ...
神经音频编解码器(NACS)作为音频压缩的关键技术以及语音语言模型的音频表示,引起了极大的关注。虽然主流NAC模型主要基于卷积,但具有纯粹基于 Transformer 的NAC的性能仍未得到探索。本文介绍了基于 Transformer 的简单流单编解码器TS3-Codec ...
神经音频编解码器最近因其压缩高保真音频并生成可用于下游生成建模任务中的离散 Token 的能力而获得了吸引力。但是,领先的方法通常依赖于资源密集型模型和多量式架构,从而导致了相当大的计算开销和限制的现实世界适用性。在本文中,我们提出了SQCodec,这是一种轻巧的神经音频编解码器,利用单个量化器来解决这些限制 ...
对分布(OOD)数据的概括是现代机器学习中的核心问题之一。最近,提出算法的尝试激增,主要基于提取不变特征的想法。尽管在直觉上合理,但对哪种不变性可以保证的理论理解仍然有限,并且对任意分布的概括显然是不可能的 ...
用于优化可执行文件的调试信息的可用性在很大程度上可以减轻关键任务,例如崩溃分析。源级别的调试者使用此信息以源代码来显示程序状态,即使优化更改程序结构也可以在其上进行推理。最近的一些努力提出了有效的方法,以识别不正确的调试信息实例,通过向用户呈现不一致的程序状态,这可能会误导用户 ...
我们在视频中介绍了一个开放世界对象的新任务:给定的文本描述或一个指定目标对象的图像示例,目的是列举视频中目标对象的所有唯一实例。在拥挤的场景和类似物体的拥挤场景中,此任务尤其具有挑战性,避免双重计数和识别重新出现至关重要。为此,我们做出以下贡献:我们为此任务介绍了一个模型Countvid ...
随着大型语言模型(LLM)从文本完成工具演变为在动态环境中运行的完全刚起步的代理,他们必须应对不断学习和保留长期知识的挑战。许多生物系统通过情节记忆来解决这些挑战,该记忆支持特定于实例的上下文的单次学习。受此启发,我们为LLM代理提供了一个情节记忆框架,以五个偶发记忆的关键属性为中心,这些记忆是基于自适应和上下文敏感行为的基础 ...
人形机器人的感知系统设计由于固有的结构约束而引起了独特的挑战,这些结构约束会导致严重的自我概括和有限的视野(FOV)。我们提出了HumanoidPano,这是一种新型的杂交跨模式感知框架,协同整合了全景视觉和LIDAR感应以克服这些局限性。与依靠单眼相机或标准多传感器配置的常规机器人感知系统不同,我们的方法通过球形视觉 Transformer 建立了几何感知的模态对齐,从而使360个视觉上下文的无缝融合与激光雷达的精确深度测量 ...
培训前最先进的大语言模型(LLMS)需要大量的干净和多样化的文本数据。虽然大型英语预训练数据集的开放开发已经取得了很大的进步,但培训表现的多语言LLMS仍然是一个挑战,在很大程度上是由于对大量语言的固定过滤和重复解说管道的固有困难。在这项工作中,我们引入了基于FineWeb的新的预训练数据集策展管道,可以自动调整以支持任何语言 ...