arxiv的文档

arxiv 南京

个性签名 ...

GITA: Graph to Visual and Textual Integration for Vision-Language Graph Reasoning

大型语言模型（LLM）越来越多地用于具有图形结构的各种任务。尽管LLM可以以文本格式处理图形信息，但它们忽略了丰富的视觉方式，这是人类理解结构信息并进行一般图形推理的直观方式。将图形结构表示为视觉图像的潜在优势和功能（i ...

0 0 0 0 2025/07/30 arXiv:2402.02130v5 ShuoHanai

Curious Causality-Seeking Agents Learn Meta Causal World

在建立世界模型时，一个共同的假设是，环境具有一个不变的基本因果规则，例如将牛顿的法律应用于每种情况。实际上，看来是一种漂移的因果机制通常是通过狭窄的观察窗口看到的固定基本机制的表现。这带来了一个问题，即建立世界模型时，即使在政策或环境中的细微转变也可以改变观察到的因果机制 ...

0 0 1 3 2025/07/30 arXiv:2506.23068v1 waterfall666

Thinking Outside the BBox: Unconstrained Generative Object Compositing

将对象组合到图像中涉及多个非平凡的子任务，例如对象放置和缩放，颜色/照明协调，观点/几何调整以及阴影/反射生成。最近的生成图像合成方法利用扩散模型一次处理多个子任务。但是，现有模型由于依赖训练期间掩盖原始对象而面临限制，这将其一代限制在输入面罩上 ...

0 0 0 0 2025/07/30 arXiv:2409.04559v2 wtyang

InteractPro: A Unified Framework for Motion-Aware Image Composition

我们介绍了InteractPro，这是一个动态运动吸引图像组成的综合框架。 Internotplan的核心是智能计划者，它利用大型视觉语言模型（LVLM）进行场景分析和对象放置，确定了实现现实运动效应的最佳组成策略。根据每种情况，InteractPlan在我们的两个专用模块之间进行选择：InteractPhys和InteractMotion ...

0 0 0 0 2025/07/30 arXiv:2409.10090v2 wtyang

ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

我们提出了Zerocomp，这是一种有效的零射击3D对象合成方法，在训练过程中不需要配对的复合场景图像。我们的方法利用ControlNet从固有图像条件下，并将其与稳定的扩散模型结合起来，以利用其场景先验，一起作为有效的渲染引擎运行。在训练过程中，ZeroComp使用基于几何形状，反照率和掩盖阴影的固有图像，而无需使用和没有复合物体的场景的配对图像 ...

0 0 0 0 2025/07/30 arXiv:2410.08168v2 wtyang

ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation

本文介绍了一种无调的方法，用于对象插入和主题驱动的生成。该任务涉及将对象（给定的多个视图）构成由图像或文本指定的场景。现有的方法难以完全满足任务的挑战目标：（i）将对象无缝地将对象组合到场景中，并以影迷的姿势和照明以及（ii）保留对象的身份 ...

0 0 0 0 2025/07/30 arXiv:2412.08645v1 wtyang

Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion

作为常见的图像编辑操作，图像组成涉及将前景对象集成到背景场景中。在本文中，我们将负担能力概念的应用从以人为中心的图像组成任务到更一般的对象场景构图框架，从而解决了前景对象和背景场景之间的复杂相互作用。遵循负担的原则，我们定义了负担能力感知的对象插入任务，该任务旨在将任何对象无缝插入具有各种位置提示的任何场景中 ...

0 0 0 0 2025/07/30 arXiv:2412.14462v2 wtyang

UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer

随着图像生成中扩散模型的快速发展，对更强大和灵活的可控框架的需求正在增加。尽管现有方法可以指导生成文本提示，但在保持多种条件输入的同时保持一致性的挑战仍未解决。为了解决这个问题，我们引入了Unicombine，这是一种基于DIT的多条件可控生成框架，能够处理任何条件组合，包括但不限于文本提示，空间图和主题图像 ...

0 0 0 0 2025/07/30 arXiv:2503.09277v2 wtyang

Multitwine: Multi-Object Compositing with Text and Layout Control

我们介绍了第一个能够在文本和布局的指导下同时进行多对象合成的生成模型。我们的模型允许在场景中添加多个对象，从而捕获简单位置关系的一系列交互（例如， ...

0 0 0 0 2025/07/30 arXiv:2502.05165v1 wtyang

DreamFuse: Adaptive Image Fusion with Diffusion Transformer

图像Fusion试图将前景对象与背景场景无缝整合，从而产生逼真而和谐的融合图像。与直接将对象插入背景的现有方法不同，自适应和交互式融合仍然是一项具有挑战性但有吸引力的任务。它要求前景调整或与背景上下文相互作用，从而实现更连贯的集成 ...

0 0 0 0 2025/07/30 arXiv:2504.08291v1 wtyang