视觉模型(VLMS)通常通过验证的视觉编码器处理视觉输入,然后通过连接器组件投影到语言模型的嵌入空间中。尽管对于模态融合至关重要,但该投影步骤引起的潜在信息损失及其对模型能力的直接影响仍在研究中。我们介绍了两种补充方法,通过分析潜在表示空间来检查和量化这一损失 ...
0 0 0 2025/09/18 arXiv:2509.11986v1 haoyi199815
物理人工智能首先需要进行数字化训练。它需要自身的数字孪生,即政策模型,以及世界的数字孪生,即世界模型。在本文中,我们提出了 Cosmos World 基础模型平台,以帮助开发人员为其物理 AI 设置构建定制的世界模型 ...
0 0 0 2025/09/18 arXiv:2501.03575v3 布朗瓶
在机器人技术领域,一般对象抓握是一个重要但未解决的问题。当前大多数方法要么产生抓握的姿势,而且少数无法覆盖大多数成功掌握的DOF,要么仅将不稳定的深度图像或点云作为输入中,在某些情况下可能会导致较差的结果。在本文中,我们提出了RGBD-GRASP,这是一种通过将7-DOF GRASP检测解散为两个子任务中解决此问题的管道,其中分别处理RGB和深度信息 ...
0 0 0 2025/09/18 arXiv:2103.02184v1 18801130956
我们提出了新型的深接头源通道编码(DEEPJSCC)算法,用于通过多输入多输出(MIMO)瑞利褪色通道,仅在接收器上获得通道状态信息(CSI)时。我们考虑两种不同的方案。一种分别利用空间多样性,另一种利用MIMO通道的空间多路复用增益。对于前者,我们利用正交时空块代码(OSTBC)实现完全多样性并提高对渠道变化的鲁棒性 ...
0 0 0 2025/09/18 arXiv:2210.16985v2 mmc
实际应用程序中的时间序列数据,例如医疗保健,气候建模和金融,通常是不规则的,多模式的和凌乱的,采样率不同,异步模态和普遍存在的失踪性。但是,现有的基准通常假设清洁,定期采样,单峰数据,从而在研究和现实世界部署之间存在很大的差距。我们介绍了Time-IMM,这是一个专门设计的数据集,该数据集旨在捕获多模式多元时间序列中的因果驱动的不规则性 ...
0 0 0 2025/09/18 arXiv:2506.10412v2 lzlzlz
端到端(E2E)自动驾驶的安全可扩展部署需要广泛而多样化的数据,尤其是至关重要的事件。现有数据主要是由具有显着的SIM到真实差距的模拟器生成的,或者是从昂贵且不安全的公路测试中收集的。本文介绍了Terasim-world,这是一种自动化管道,综合了世界上任何地方的E2E自动驾驶的现实和地理上不同的安全性数据 ...
0 0 0 2025/09/18 arXiv:2509.13164v1 布朗瓶
多年来,推荐系统已在各种大规模面向用户的平台中广泛使用。但是,与AI社区的快速发展相比,近年来推荐系统尚未取得突破。例如,他们仍然依靠多阶段的级联体系结构而不是端到端方法,从而导致计算分散和优化不一致,并阻碍了在建议方案中,AI社区从AI社区中有效地应用了关键突破性技术 ...
0 0 0 2025/09/18 arXiv:2506.13695v4 mx3830
在对话式AI中有效的长期记忆需要在多个会话中综合信息。但是,当前系统将过多的推理负担放在响应生成上,使性能显着取决于模型尺寸。我们介绍了Premem(情节记忆的存储前推理),这是一种新颖的方法,将复杂的推理过程从推理转移到记忆构建 ...
0 0 4 2025/09/17 arXiv:2509.10852v1 waterfall666

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)