视觉理解本质上是意图驱动的 - 人类根据其目标选择性地专注于场景的不同区域。大型多模型模型(LMM)的最新进展使这种意图通过自然语言可以灵活地表达,从而可以指导视觉推理过程。诸如视觉链的框架之类的框架已经证明了合并明确的推理步骤的好处,该步骤在回答查询之前预测了焦点区域 ...
0 0 0 2025/05/21 arXiv:2503.07523v2 fulyace
视觉模型已取得了重大进展。但是,通过语言条件的机器人操作,用于接触术的任务尚未得到充满反感,尤其是在触觉感应方面。为了解决这一差距,我们介绍了触觉语言动作(TLA)模型,该模型通过跨模式的语言接地有效地处理顺序触觉反馈,以在接触密集型场景中实现强大的策略生成 ...
0 0 0 2025/05/21 arXiv:2503.08548v1 ajsaj
在实际推荐系统中,通常使用具有精心设计的模型架构的特定任务数据集对不同的任务进行处理。我们证明,大型语言模型(LLM)可以充当通用建议学习者,能够在统一输入输出框架中处理多个任务,从而消除了对专业模型设计的需求。为了提高LLMS的建议性能,我们引入了用于项目表示形式的多模式融合模块,以及一种用于有效候选生成的序列中的方法 ...
0 0 0 2025/05/21 arXiv:2502.03041v2 Lum0s
我们介绍了Nocturne,这是一种新的2D驾驶模拟器,用于研究部分可观察性下的多代理协调。夜曲的重点是在现实世界多代理设置中对推理和心理理论进行研究,而没有计算机视觉的计算开销并从图像中提取特征。该模拟器中的代理只会观察到场景的障碍,模仿人类的视觉传感限制 ...
0 0 0 2025/05/21 arXiv:2206.09889v3 chenlei
各行业对高质量 3D 资产的需求不断增长,需要高效、自动化的 3D 内容创建。尽管 3D 生成模型最近取得了进展,但现有方法仍然面临优化速度、几何保真度以及缺乏基于物理的渲染 (PBR) 资产的挑战。在本文中,我们介绍了 3DTopia-XL,这是一种可扩展的原生 3D 生成模型,旨在克服这些限制 ...
0 0 0 2025/05/21 arXiv:2409.12957v2 zhifeiji
生成高质量的基于物理的渲染(PBR)材料对于在下游任务中实现逼真的渲染非常重要,但是由于材料和照明的相互交织的影响,它仍然具有挑战性。尽管现有方法通过将材料分解纳入3D代管道中取得了突破,但它们倾向于将重点烘烤到反照率中,而忽略了金属性和粗糙度的空间变化特性。在这项工作中,我们提出了PBR3DGEN,这是一种具有高质量PBR材料的两阶段网格生成方法,该方法将新型的多视图PBR材料估计模型和3D P ...
0 0 0 2025/05/21 arXiv:2503.11368v1 zhifeiji
最近,大型语言模型(LLMS)在推荐系统中表现出巨大的潜力,可以改善现有推荐模型或用作骨干。但是,LLMS和推荐系统之间存在很大的语义差距,因为要推荐的项目通常会在LLM的词汇表中索引(项目ID)。从本质上讲,LLMS捕获语言语义,而推荐系统则意味着协作语义,因此很难充分利用LLMS的模型能力进行推荐 ...
0 0 0 2025/05/21 arXiv:2311.09049v4 jacky2025
由于其在视频游戏,电影业和AR/VR等各种应用中的潜力,自动3D内容创建最近引起了人们的关注。鉴于单个RGB图像,扩散模型和多模型模型的最新进展显着提高了3D对象产生的质量和效率。但是,与人类创建的资产相比,即使是最先进的方法生成的3D对象仍然不令人满意 ...
0 0 0 2025/05/21 arXiv:2411.16080v1 zhifeiji

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)