最近的实时语义细分模型,无论是单分支还是多分支,都可以实现良好的性能和速度。但是,它们的速度受到多路径块的限制,有些依赖于高性能的教师模型进行培训。为了克服这些问题,我们提出了黄金Cudgel网络(GCNET) ...
0 0 0 2025/04/09 arXiv:2503.03325v1 zcr10086
改变衣服的人的重新识别(CC-REID)旨在在不同的衣服场景下认识个人。当前的CC固定方法要么专注于使用其他模态(包括轮廓,姿势和身体网格)进行建模的身体形状,因此可能导致模型忽略其他关键生物特征特征,例如性别,年龄和样式,或者它们通过其他标签通过模型试图忽略或强调的其他标签进行监督,例如服装或个人属性或个人属性或个人属性。但是,这些注释本质上是离散的,不会捕获全面的描述 ...
0 0 0 2025/04/09 arXiv:2503.22912v1 L1MICH233
尽管近年来端到端的自主驾驶(E2E-AD)技术取得了重大进展,但闭环评估的性能仍然不令人满意。在查询设计和互动中利用计划的潜力尚未得到充分探索。在本文中,我们介绍了一个多粒性计划查询表示形式,该图表整合了异构航路点,包括各种采样模式的空间,时间和驾驶式航路点 ...
0 0 0 2025/04/09 arXiv:2503.08612v1 feitianyong
早期退出是提高深网推理效率的有效范式。通过构造具有不同资源需求的分类器(退出),此类网络可以在早期出口处输出简单的样本,从而消除了执行更深层的需求。尽管现有作品主要关注多EXIT网络的建筑设计,但此类模型的培训策略在很大程度上没有探索 ...
0 0 0 2025/04/09 arXiv:2209.08310v1 q774798577
运动控制对于生成富有表现力和引人注​​目的视频内容至关重要;然而,大多数现有的视频生成模型主要依靠文本提示进行控制,很难捕捉动态动作和时间合成的细微差别。为此,我们训练了一个以时空稀疏或密集运动轨迹为条件的视频生成模型。与之前的运动调节工作相比,这种灵活的表示可以编码任意数量的轨迹、特定对象或全局场景运动以及时间稀疏运动;由于其灵活性,我们将这种调节称为运动提示 ...
0 0 0 2025/04/09 arXiv:2412.02700v2 火火火
人类通过一系列感官方式,包括听觉,视觉和语言能力来感知现实世界。实现人工智能(AGI)的旅程需要开发可以模拟这些多方面的感知能力并全面理解这些多元化数据的模型。为此,我们介绍了\ textbf {nexus-o},这是一种行业级别\ textbf {omni-pecceptive and-interactive}模型,该模型能够以端到到端的方式有效地处理任何组合和输出音频/文本中的任何组合和输出音 ...
0 0 1 2025/04/09 arXiv:2503.01879v2 Abidalswark
视觉语言动作模型(VLA)作为通才机器人策略表现出巨大的潜力。但是,这些模型在部署期间构成了紧急安全挑战,包括对环境,机器人本身和人类的身体伤害的风险。如何将安全性明确纳入VLA?在这项工作中,我们提出了一种新型算法Safevla,旨在将安全性整合到VLAS中,以确保对环境,机器人硬件和人类在现实环境中的保护 ...
0 0 0 2025/04/09 arXiv:2503.03480v1 user
了解因果关系对于各种自然语言处理(NLP)应用至关重要。除了标记的实例之外,对因果关系的概念解释还可以提供对因果事实的深刻理解,以促进因果推理过程。但是,在现有的因果推理资源中,此类解释信息仍然不存在 ...
0 0 0 2025/04/09 arXiv:2205.05849v1 firefly2024

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)