parsifalster的文档

parsifalster

个性签名 ...

AvatarStudio: High-fidelity and Animatable 3D Avatar Creation from Text

我们研究仅通过文本描述创建高保真且可动画的 3D 头像的问题。现有的文本到头像方法要么仅限于无法动画化的静态头像，要么难以生成具有良好质量和精确姿势控制的可动画头像。为了解决这些限制，我们提出了 AvatarStudio，这是一种从粗到细的生成模型，可为可动画化的人类头像生成显式纹理 3D 网格 ...

0 0 0 0 2024/09/02 arXiv:2311.17917v1 parsifalster

Scene Graph Generation: A Comprehensive Survey

近年来，深度学习技术在通用目标检测领域取得了显着突破，SGG），是指将图像自动映射到语义结构场景图的任务，这需要正确标记检测到的对象及其关系... ...

0 0 0 0 2025/03/04 arXiv:2201.00443v2 parsifalster

A Comprehensive Survey of Scene Graphs: Generation and Application

图像是场景的构成表示，可以清晰表达场景中的物体、属性以及物体之间的。随着计算机视觉技术的不断发展，人们不再满足于简单地检测和识别图像中的物体；相反，人们期待对视觉场景有更高层次的理解和推理。例如，给定一张图像，我们不仅要检测和识别图像中的对象，还要知道对象之间的关系（关系检测），并根据图像内容生成文本描述（图像字幕）... ...

0 0 0 0 2024/12/31 arXiv:2104.01111v5 parsifalster

A Comprehensive Survey on 3D Content Generation

最近，人工智能生成内容（AIGC）取得了显着的进步，输入方式不同，例如文本、图像、视频、音频和3D ... ...

0 0 0 0 2024/12/23 arXiv:2402.01166v2 parsifalster

iControl3D: An Interactive System for Controllable 3D Scene Generation

长期以来，3D 内容创建一直是一个复杂且耗时的过程，通常需要专门的技能和资源。尽管最近的进步已经允许文本引导的 3D 对象和场景生成，但它们仍然无法对生成过程提供足够的控制，从而导致用户的创意愿景与生成的结果之间存在差距。在本文中，我们介绍了 iControl3D，这是一种新颖的交互系统，使用户能够通过精确控制生成和渲染可定制的 3D 场景 ...

0 0 0 0 2024/08/25 arXiv:2408.01678v1 parsifalster

Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches

3D 内容生成是许多计算机图形应用的核心，包括视频游戏、电影制作、虚拟和增强现实等。本文提出了一种基于深度学习的新颖方法，用于自动生成交互式和可玩的 3D 游戏场景，所有这些都来自用户的随意提示，例如手绘草图。基于草图的输入提供了一种自然、便捷的方式来传达用户在内容创建过程中的设计意图 ...

0 0 0 0 2024/08/25 arXiv:2408.04567v1 parsifalster

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

我们提出了 GALA3D，即具有 LAyout 引导控制的生成 3D GAussian，用于有效的组合文本到 3D 生成。我们首先利用大型语言模型 (LLM) 生成初始布局，并引入布局引导的 3D 高斯表示，用于具有自适应几何约束的 3D 内容生成。然后，我们提出了一种具有条件扩散的实例场景合成优化机制，以协作生成具有一致的几何形状、纹理、比例和多个对象之间准确交互的真实 3D 场景，同时调整从 LLM 中提取的粗略布局先验，以与生成的场景保持一致 ...

0 0 0 0 2024/08/25 arXiv:2402.07207v2 parsifalster

SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation

富有表现力的人体姿势和形状估计 (EHPS) 将身体、手和面部运动捕捉与众多应用相结合。尽管取得了令人鼓舞的进展，但当前最先进的方法仍然在很大程度上依赖于一组有限的训练数据集。在这项工作中，我们研究了将 EHPS 扩展到第一个通用基础模型（称为 SMPLer-X），以 ViT-Huge 作为骨干，并进行最多 4 个训练 ...

0 0 0 0 2024/08/25 arXiv:2309.17448v3 parsifalster

Digital Life Project: Autonomous 3D Characters with Social Intelligence

在这项工作中，我们提出了数字生活项目，这是一个利用语言作为通用媒介来构建自主 3D 角色的框架，这些角色能够参与社交互动并通过关节式身体动作进行表达，从而模拟数字环境中的生活。我们的框架包括两个主要组成部分：1）SocioMind：一个精心设计的数字大脑，它用系统的小样本模型来建模人格，结合基于心理学原理的反思过程，并通过发起对话主题来模拟自主性； 2）MoMat-MoGen：一种文本驱动的运动合成范例，用于控制角色的数字身体。它集成了运动匹配（一种经过验证的行业技术，可确保运动质量）与运动生成方面的尖端进步，以实现多样性 ...

0 0 0 0 2024/08/24 arXiv:2312.04547v1 parsifalster

Large Language Models for Human-Robot Interaction: Opportunities and Risks

大语言模型（LLM）的巨大发展引发了新一波的创新和应用，并产生了最初预计需要更长时间的研究成果。在这项工作中，我们利用了这些最新进展，并提出了一项关于大型语言模型部署在社交机器人中的潜力的元研究。我们特别重视社交机器人的应用：教育、医疗保健和娱乐 ...

0 0 0 0 2024/08/24 arXiv:2405.00693v1 parsifalster