我们介绍了Showroom3D,这是一种三阶段的方法,用于从文本中产生高质量的3D房间场景。使用2D扩散先验的先前方法来优化用于生成房间场景的神经辐射场表现出不令人满意的质量。这主要归因于训练方法中缺乏3D意识和限制的2D先验的局限性 ...
0 0 0 2025/04/29 arXiv:2312.13324v1 wonglliam
学习有效的深层肖像贴图模型需要高质量和大量的培训数据。然而,肖像垫的质量和数量都不容易满足。由于最准确的地面肖像哑光是在绿屏前购买的,因此现实中几乎不可能收获大型肖像垫数据集 ...
0 0 0 2025/04/29 arXiv:2501.16147v1 SOOKIE
在许多实际应用中,例如房间计划或游戏开发等许多实际应用,设计高质量的室内3D场景很重要。通常,这是一个耗时的过程,它既需要艺术技能,又需要对专业软件的熟悉,这使得外行用户几乎无法访问。但是,生成AI的最新进展为将3D设计民主化的扎实基础奠定了基础 ...
0 0 0 2025/04/29 arXiv:2407.20727v1 wonglliam
现有的视觉语言动作(VLA)模型在零拍摄方案中显示出令人鼓舞的性能,表明了令人印象深刻的任务执行和推理功能。但是,视觉编码的局限性引起了一个重大挑战,这可能会导致在诸如对象抓紧之类的任务期间发生故障。此外,这些模型通常由于大小较大而遭受高计算开销,通常超过7b参数 ...
0 0 0 2025/04/29 arXiv:2504.19854v1 蔡明方
灵巧机器人最重要但具有挑战性的技能之一就是掌握各种各样的物体。先前的大部分工作都受到速度,一般性或对深度图和物体姿势的依赖的限制。在本文中,我们介绍了Dextrah-RGB,该系统可以从RGB图像输入中执行灵巧的手臂握住端到端 ...
0 0 0 2025/04/29 arXiv:2412.01791v2 晚餐杀手
本文没有描述一种新颖的方法。取而代之的是,鉴于计算机视觉的最新进展,它研究了直接,增量但必不可少的基线:视觉 Transformer (VIT)的自学学习学习。虽然标准卷积网络的培训食谱已经高度成熟和强大,但VIT的配方尚未建立,尤其是在自我监督的场景中,培训变得更具挑战性 ...
0 0 0 2025/04/29 arXiv:2104.02057v4 link.yu
多模式情感分析(MSA)面临两个关键挑战:多模式融合和模态不平衡的决策逻辑中缺乏可解释性,这是由于模式间信息密度的差异引起的。为了解决这些问题,我们提出了KAN-MCP,这是一个新颖的框架,该框架将Kolmogorov-Arnold网络(KAN)的解释性与多模式清洁帕托(McPareto)框架的鲁棒性相结合。首先,KAN利用其单变量函数分解来实现跨模式相互作用的透明分析 ...
0 0 0 2025/04/29 arXiv:2504.12151v1 huyang
人们可以通过阅读以无监督的方式获取知识,并撰写知识以制作新颖的组合。在本文中,我们研究了验证的语言模型是否可以在现实的环境中执行组成概括:食谱生成。我们设计了反事实食谱生成任务,该任务要求模型根据成分的更改修改基本食谱 ...
0 0 0 2025/04/29 arXiv:2210.11431v1 eFang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)