密集的视觉预测任务受到其对预定义类别的依赖的限制,从而限制了它们在视觉概念无限的现实情况下的适用性。虽然视觉模型(VLM)像夹子(VLM)在开放式摄影任务中表现出了希望,但由于本地特征表示的限制,它们在密集预测中的直接应用通常会导致次优性能。在这项工作中,我们介绍了我们的观察结果,即夹子的图像 Token 难以有效地从空间或语言相关区域汇总信息,从而导致缺乏局部可区分性和空间一致性的特征 ...
杂乱的环境中的群导航是机器人技术的巨大挑战。这项工作将深度学习与第一原理物理结合在一起,通过可区分的模拟,以高速通过复杂的环境自动导航。我们的方法通过使用简单的点质量物理模型和深度渲染引擎通过机器人模拟来反向传播损失梯度直接通过机器人模拟来优化神经网络控制策略 ...
由于要估计大量参数,因此在多ANTENNA通信系统中,通道估计是挑战性的。促进此任务的一种方法是使用描述构成通道的多个路径的物理模型,以减少问题中未知数的数量。从理论上研究了使用这种物理模型的估算性能 ...
诸如OpenAI O3和DeepSeek-R1之类的推理模型通过扩展的思维链(COT)提示在推理密集型任务上表现出了强劲的表现。尽管更长的推理轨迹可以促进对复杂问题的解决方案路径的更彻底的探索,但研究人员观察到这些模型经常“过度思考”,从而导致推理效率低下。在本文中,我们介绍了ShorterBetter,这是一种简单而有效的强化学习方法,使推理语言模型能够在没有人类干预的情况下发现自己的最佳C ...
我们引入了一种用于内存神经网络的新结构,称为FeedForward顺序内存网络(FSMN),该结构可以在不使用复发反馈的情况下学习长期依赖性。提出的FSMN是一个标准的前馈神经网络,配备了隐藏层中可学习的顺序记忆块。在这项工作中,我们将FSMN应用于多个语言建模(LM)任务 ...
这项工作针对新型的文本驱动全身运动生成任务,该任务将给定的文本描述作为输入,旨在同时产生高质量,多样和连贯的面部表情,手势和身体运动。以前关于文本驱动的运动生成任务的作品主要有两个局限性:它们忽略了精细颗粒的手和面部控制在生动的全身运动生成中的关键作用,并且缺乏文本和运动之间的良好对齐。为了解决此类局限性,我们提出了一个与文本一致的全身运动生成框架,名为Humantomato,这是我们对该研究领域 ...
最近的邻居搜索(NNS)最近由于其在数据科学和AI应用中管理高维矢量数据方面的核心作用而引起了兴趣的迅速增加。神经嵌入的成功助长了兴趣,其中深度学习模型将非结构化的数据转化为语义相关的特征向量以进行数据分析,例如 ...
近年来,扩散模型显示了从视觉产生到语言建模的各种领域的潜力。将其功能转移到现代的自动驾驶系统上,这也是这项工作的有希望的这项工作,我们建议TransDiffuser,这是一种基于编码器的生成轨迹计划模型,用于端到端自动驾驶。编码的场景信息用作Denoising解码器的多模式条件输入 ...