smallz的文档

smallz

smallz

个性签名 ...

LLM-as-a-Judge: Toward World Models for Slate Recommendation Systems

跨领域的用户偏好建模仍然是石板推荐（即推荐有序的项目序列）研究中的一个关键挑战。我们研究大型语言模型（LLM）如何通过对石板进行成对推理来有效地充当用户偏好的世界模型。我们对几位 LLM 进行了一项实证研究，涉及跨越不同数据集的三项任务。我们的结果揭示了任务绩效与 LLM 捕获的偏好函数属性之间的关系，暗示了需要改进的领域，并强调了 LLM 作为推荐系统中的世界模型的潜力 ...

0 0 0 0 2026/01/17 arXiv:2511.04541v1 smallz

T2I-Copilot: A Training-Free Multi-Agent Text-to-Image System for Enhanced Prompt Interpretation and Interactive Generation

文本对图像（T2I）生成模型已彻底改变了内容的创建，但仍需提示措辞，通常要求用户在没有明确反馈的情况下多次重复提示。尽管诸如自动及时工程，受控文本嵌入，降解和多转弯产生等技术减轻了这些问题，但它们提供了有限的可控性，或者通常需要进行其他培训，从而限制了概括能力。因此，我们介绍了T2i-CopiLot，这是一种无训练的多代理系统，利用（多模式）大语言模型之间的协作来自动化及时措辞，模型选择和迭代性改进 ...

0 0 0 0 2025/10/08 arXiv:2507.20536v2 smallz

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

最近，我们通过自然语言说明目睹了图像编辑的巨大进展。 GPT-Image-1，SeedReam和Google-Nano-Banana等几种封闭源模型表现出了很高的希望。但是，开源型号仍在落后 ...

0 0 0 0 2025/10/05 arXiv:2509.26346v1 smallz

PersonaVlog: Personalized Multimodal Vlog Generation with Multi-Agent Collaboration and Iterative Self-Correction

随着对简短视频和个性化内容的需求不断增长，自动化视频日志（VLOG）生成已成为多模式内容创建的关键方向。现有方法主要依赖于预定义的脚本，缺乏动态和个人表达。因此，迫切需要一种自动vlog生成方法，该方法可以实现有效的多模式协作和高个性化 ...

0 0 0 0 2025/10/03 arXiv:2508.13602v2 smallz

AniME: Adaptive Multi-Agent Planning for Long Animation Generation

我们介绍了动漫，这是一种以导演为导向的多代理系统，用于自动化长期动漫制作，涵盖了从故事到最终视频的完整工作流程。导演代理商保留了整个工作流程的全球记忆，并协调了几个下游专业代理商。通过将自定义的模型上下文协议（MCP）与下游模型指令集成在一起，专门的代理可以自适应选择各种子任务的控制条件 ...

0 0 0 0 2025/10/03 arXiv:2508.18781v2 smallz

MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling

尽管最近进步，但长期的视频生成框架仍然受到重大局限性：辅助能力差，次优质量和表现力有限。为了减轻这些局限性，我们建议Mavis，Mavis是一个端到端的多代理协作框架，用于长期视频讲故事。 Mavis在多个阶段策划了专门的代理，包括脚本编写，镜头设计，角色建模，钥匙帧生成，视频动画和音频生成 ...

0 0 0 0 2025/09/29 arXiv:2508.08487v3 smallz

PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting

文本到图像（T2I）扩散模型的最新进展表明，在产生高保真图像方面具有显着的功能。但是，这些模型通常很难忠实地渲染复杂的用户提示，尤其是在属性绑定，否定和组成关系等方面。这导致用户意图与生成的输出之间的不匹配 ...

0 0 0 0 2025/09/29 arXiv:2509.04545v5 smallz

Training-free Geometric Image Editing on Diffusion Models

我们解决了几何图像编辑的任务，其中图像中的对象是重新定位，重新定位或重塑的，同时保持整体场景相干性。以前的基于扩散的编辑方法通常试图在一个步骤中处理所有相关的子任务，这在转换变得大或结构复杂时很难。我们通过提出一条解耦的管道来解决这一问题，该管道将对象转换，源区域介绍和目标区域改进分开 ...

0 0 0 0 2025/09/28 arXiv:2507.23300v2 smallz

DCI: Dual-Conditional Inversion for Boosting Diffusion-Based Image Editing

扩散模型在图像生成和编辑任务中取得了巨大的成功。这些模型中的倒置旨在为真实或生成的图像恢复潜在的噪声表示形式，从而启用重建，编辑和其他下游任务。但是，迄今为止，大多数反转方法都在重建准确性和编辑灵活性之间存在固有的权衡 ...

0 0 0 0 2025/09/23 arXiv:2506.02560v1 smallz

CREA: A Collaborative Multi-Agent Framework for Creative Content Generation with Diffusion Models

AI图像中的创造力仍然是一个根本的挑战，不仅需要产生视觉上引人入胜的内容，而且还需要在图像中增加新颖，表现力和艺术丰富的转换的能力。与依赖基于直接及时的直接修改的常规编辑任务不同，创意图像编辑需要一种自主，迭代的方法，以平衡独创性，连贯性和艺术意图。为了解决这个问题，我们介绍了CREA，这是一个模仿人类创作过程的新型多代理协作框架 ...

0 0 0 0 2025/09/22 arXiv:2504.05306v1 smallz

文件上传进度

0%

上传成功 0 个文件