轨迹预测是从观察序列中理解实体运动或人类行为的一项关键任务。然而,当前的方法通常假设观测序列是完整的,而忽略了由于物体遮挡、范围限制、传感器故障等导致的缺失值的可能性。这种限制不可避免地影响了轨迹预测的准确性 ...

0 0 0 0 2025/01/14 arXiv:2303.16005v1 tuxiaolv

薛定谔桥问题(SBP)在生成模型中越来越受到关注,甚至与基于分数的生成模型(SGM)相比也显示出广阔的潜力。 SBP 可以解释为熵正则化最优传输问题,它交替地对每个其他边际进行投影。然而,在实践中,只能获得近似投影,并且它们的收敛性尚不清楚 ...

0 0 0 0 2025/01/14 arXiv:2305.07247v4 tuxiaolv

将多元时间序列建模为(可能是动态的)图上的时间信号是一种有效的表示框架,允许开发时间序列分析模型。事实上,离散的图序列可以通过自回归图神经网络进行处理,以递归地学习时间和空间上每个离散点的表示。时空图通常是高度稀疏的,时间序列的特征是多个、并发和长的缺失数据序列,例如 ...

0 0 0 0 2025/01/14 arXiv:2205.13479v2 tuxiaolv

图像融合旨在组合来自不同源图像的信息以创建具有全面代表性的图像。现有的融合方法通常无法应对低质量源图像的退化,并且无法满足多种主观和客观需求。为了解决这些问题,我们引入了一种新颖的方法,该方法利用语义文本引导图像融合模型来执行退化感知和交互式图像融合任务,称为 Text-IF ...

0 0 0 0 2025/01/14 arXiv:2403.16387v1 19396386025

由于基础模型的泛化能力,功能广泛且目标导向的智能体(例如数字世界中的互联网浏览智能体和物理世界中的家庭人形机器人)的愿景已经迅速发展。这样的多面手代理需要拥有大量且多样化的技能,例如寻找两个旅行地点之间的方向以及从互联网上购买特定物品。如果每个技能都需要通过一组固定的人工注释指令手动指定,则由于人工注释指令的数量和多样性,代理的技能库必然受到限制 ...

0 0 0 0 2025/01/14 arXiv:2412.13194v1 wwwwwww

3D 视觉基础是家用机器人的一项关键技能,使它们能够根据环境进行导航、操纵物体和回答问题。虽然现有方法通常依赖于大量标记数据或在处理复杂语言查询时表现出局限性,但我们提出了 LLM-Grounder,这是一种新颖的零样本、开放词汇、基于大语言模型 (LLM) 的 3D 视觉基础管道。 LLM-Grounder 利用 LLM 将复杂的自然语言查询分解为语义成分,并采用 OpenScene 或 LERF 等视觉基础工具来识别 3D 场景中的对象 ...

0 0 0 0 2025/01/14 arXiv:2309.12311v1 15673142269

语言模型后训练用于改进行为并解锁各种最新语言模型的新技能,但应用这些技术的开放方法落后于专有技术。底层训练数据和训练后的配方既是难题中最重要的部分,也是透明度最低的部分。为了弥补这一差距,我们推出了 TÜLU 3,这是一系列完全开放的、最先进的训练后模型及其数据、代码和训练方法,可作为现代训练后技术的综合指南 ...

0 0 0 0 2025/01/14 arXiv:2411.15124v2 ljf

虚拟试穿 (VTON) 已成为电子商务中的重要工具,可以真实模拟个人的服装,同时保留其原始外观和姿势。早期的 VTON 方法依赖于单一生成网络,但由于特征提取和融合的限制,在保留细粒度服装细节方面仍然存在挑战。为了解决这些问题,最近的方法采用了双网络范例,结合了互补的“ReferenceNet”来增强服装特征提取和融合 ...

0 0 0 0 2025/01/14 arXiv:2501.05369v1 jeft

基于扩散模型从文本和图像提示生成以服装为中心的图像的最新进展令人印象深刻。然而,现有的方法缺乏对各种服装组合的支持,并且难以在保持对文本提示的忠实度的同时保留服装细节,从而限制了它们在不同场景中的表现。在本文中,我们关注一个新任务,即 ...

0 0 0 0 2025/01/14 arXiv:2412.04146v2 jeft

扩大语音技术的语言覆盖范围有可能改善更多人获取信息的机会。然而,当前的语音技术仅限于大约 100 种语言,这仅占全球 7,000 多种语言的一小部分。大规模多语言语音 (MMS) 项目将支持的语言数量增加了 10-40 倍,具体取决于任务 ...

0 0 0 0 2025/01/14 arXiv:2305.13516v1 pky

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)