我们介绍了SceneFactor,这是一种基于扩散的大规模3D场景生成的方法,可以使可控的生成和轻松编辑。 SceneFactor通过我们的分散扩散公式启用文本引导的3D场景综合,利用潜在的语义和几何歧管来生成任意尺寸的3D场景。虽然文本输入可以简单,可控制的生成,但文本指导对于生成的3D场景的直观,局部编辑和操纵仍然不精确 ...
(llm)在各种应用中取得了显着的成功,但它们也引起了人们对自我认知的担忧。在本文中,llm的自我认知。具体来说,llm在哪些方面表现出自我认知,并构建了四个精心设计的原则来量化llm的自我认知... ...
我们介绍了HouseCrafter,这是一种新颖的方法,可以将平面图提升到一个完整的3D室内场景(例如,房屋) ...
Vision Transformer(VIT)最近在解决计算机视觉(CV)问题方面引起了极大的关注,因为它有能力通过注意机制提取信息特征和对长期依赖性进行建模。尽管最近的作品探讨了VIT的可信度,包括其稳健性和解释性,但公平性问题尚未得到充分解决。我们确定,为CNN设计的现有公平意识算法在VIT上表现不佳,这突出了需要通过DEBIAS自我注意(DSA)开发我们新颖的框架的必要性 ...
我们提出了Prim2room,这是一个可控室网的新型框架,利用2D布局条件和3D原始检索,以促进精确的3D布局规范。我们的方法与缺乏控制和精确度的现有方法不同,可以详细介绍房间规模环境。为了克服以前方法的局限性,我们引入了一种自适应观点选择算法,该算法使系统可以从比预定义的摄像机轨迹中从更有利的视图中生成家具纹理和几何形状 ...
手动为AR/VR应用程序创建3D环境是一个复杂的过程,需要3D建模软件中的专家知识。开拓性的作品通过生成以文本样式描述为条件的房间网格来促进此过程。然而,其中许多自动生成的3D网格并不遵守典型的房间布局,从而损害了它们的合理性 ...
文本驱动的3d室内场景生成可用于游戏、电影行业和 ar/vr应用。然而,现有方法无法忠实地捕捉房间布局,也不允许灵活编辑房间中的各个对象。为了解决这些问题 ...
我们提出了一个轻巧的模型,用于高分辨率肖像垫子。该模型不使用任何辅助输入,例如构图或背景捕获,并实现了高清视频的实时性能,而4K实时的实时效果。我们的模型建立在具有低分辨率网络的两阶段框架基础上,用于粗α估计,然后是用于局部区域改进的改进网络 ...