开放式自我改进代理可以自主修改自己的结构设计,以提高其能力并克服预定义架构的限制,从而减少对人类干预的依赖。我们引入了群体进化智能体(GEA),这是一种开放式自我改进的新范式,它将一组智能体视为基本的进化单元,从而在整个进化过程中实现群体内明确的经验共享和重用。与现有采用树结构进化的开放式自进化范式不同,GEA克服了孤立的进化分支导致的探索性多样性利用效率低下的限制。我们在具有挑战性的编码基准上评估 GEA,它显着优于最先进的自进化方法(在 SWE-bench Verified 上为 71.0% vs. 56.7%,在 Polyglot 上为 88.3% vs. 68.3%),并且匹配或超过了顶级的人类设计代理框架(在两个基准上分别为 71.8% 和 52.0%)。分析表明,GEA 更有效地将早期探索性多样性转化为持续、长期的进展,在相同数量的进化智能体下实现更强的性能。此外,GEA 在不同编码模型之间表现出一致的可移植性和更高的鲁棒性,平均在 1.4 次迭代中修复框架级错误,而自进化方法则需要 5 次迭代 ...

0 0 0 0 2026/03/09 arXiv:2602.04837v1 dsy

在大规模机器人数据集上训练的视觉语言动作模型(VLA)在操作任务(包括双手任务)上表现出了强大的性能。然而,由于大多数公共数据集侧重于单臂演示,因此将 VLA 应用于双手任务通常需要大量额外的双手数据和微调。为了应对这一挑战,我们引入了 TwinVLA,这是一个模块化框架,它将预训练的单臂 VLA 的两个副本组合成协调的双手 VLA。与基于单臂和双手数据混合训练的整体跨实体模型不同,TwinVLA 通过编写预训练的单臂策略来提高数据效率和性能。在现实世界和模拟环境中的各种双手任务中,TwinVLA 的性能优于同等大小的整体 RDT-1B 模型,而无需任何双手预训练。此外,它缩小了与最先进模型 $\pi_0$ 的差距,该模型依赖于广泛的专有双手数据和计算成本。这些结果使我们的模块化组合方法成为利用公共单臂数据实现高性能双手操作的数据高效且可扩展的路径 ...

0 0 0 0 2026/03/09 arXiv:2511.05275v2 hanzhuo

随着文本对图像(T2I)扩散模型实现前所未有的性能,T2I定制进一步使用户有能力将扩散模型定制为预训练数据集中不存在的新概念,称为受试者驱动的生成。此外,从单个图像中提取几个新概念使该模型能够学习多个概念,并同时减少了训练数据准备的困难,敦促对多个概念的解开是一个新的挑战。但是,现有的分离模型通常需要预先确定的掩码或保留背景元素 ...

0 0 0 0 2026/03/09 arXiv:2405.17965v2 qiuyan

近年来,用于表示图像中多个主题的文本到图像(T2I)扩散模型的多概念个性化受到了越来越多的关注。这项任务的主要挑战是“概念混合”,即多个学习的概念在输出图像中出现不必要的干扰或混合。为了解决这个问题,在本文中,我们提出了 ConceptSplit,这是一种通过训练和推理来分割单个概念的新颖框架。我们的框架包含两个关键组件。首先,我们介绍 Token 明智的价值适应(ToVA),这是一种无合并的训练方法,专门专注于调整交叉注意力中的价值投影。根据我们的实证分析,我们发现修改关键投影(现有方法中的常见方法)会破坏注意力机制并导致概念混合。其次,我们提出了解纠缠注意力的潜在优化(LODA),它通过优化输入潜在来减轻推理过程中的注意力纠缠。通过广泛的定性和定量实验,我们证明 ConceptSplit 实现了强大的多概念个性化,减轻了意外的概念干扰。代码可在此 https URL 获取 ...

0 0 0 0 2026/03/09 arXiv:2510.04668v1 qiuyan

定制的文本到图像生成,根据用户指定的概念合成图像,在处理单个概念方面取得了重大进展。然而,当扩展到多个概念时,现有方法常常难以正确集成不同的模型并避免不同概念的特征意外混合。在本文中,我们提出了 MC$^2$,这是一种多概念定制的新方法,通过推理时间优化来增强灵活性和保真度。 MC$^2$ 能够将多个单一概念模型与异构架构集成。通过自适应地细化视觉和文本标记之间的注意力权重,我们的方法确保图像区域准确地对应于其相关概念,同时最大限度地减少概念之间的干扰。大量实验表明,MC$^2$ 在提示参考对齐方面优于基于训练的方法。此外,MC$^2$ 可以无缝应用于文本到图像的生成,提供强大的合成功能。为了方便评估多概念定制,我们还引入了一个新的基准,MC++。该代码将在此 https URL 上公开提供 ...

0 0 0 0 2026/03/09 arXiv:2404.05268v3 qiuyan

个性化是文本到图像生成中的一个重要主题,尤其是具有挑战性的多概念个性化。当前的多概念方法正在努力解决身份保留、遮挡以及前景与背景之间的和谐问题。在这项工作中,我们提出了 OMG,一种遮挡友好的个性化生成框架,旨在将多个概念无缝集成到单个图像中。我们提出了一种新颖的两阶段采样解决方案。第一阶段负责布局生成和视觉理解信息收集以处理遮挡。第二个利用获得的视觉理解信息和设计的噪声混合来整合多个概念,同时考虑遮挡。我们还观察到,噪声混合的初始去噪时间步长是身份保存和布局的关键。此外,我们的方法可以与各种单一概念模型(例如 LoRA 和 InstantID)相结合,而无需额外调整。特别是,可以直接利用此 http URL 上的 LoRA 模型。大量实验表明,OMG 在多概念个性化方面表现出优越的性能 ...

0 0 0 0 2026/03/09 arXiv:2403.10983v2 qiuyan

预训练的大语言模型(LLM)广泛应用于自然语言处理(NLP)的许多子领域,通常被称为具有特定任务样本的优秀小样本学习器。值得注意的是,思想链(CoT)提示是一种通过逐步答案示例引发复杂多步推理的最新技术,在算术和符号推理、不遵循 LLM 标准缩放法则的困难系统 2 任务中实现了最先进的性能。虽然这些成功通常归因于 LLM 的小样本学习能力,但我们通过在每个答案前简单地添加“让我们一步一步思考”来证明 LLM 是不错的零样本推理者。实验结果表明,我们的零样本 CoT 使用相同的单提示模板,在各种基准推理任务上显着优于零样本 LLM 性能,包括算术(MultiArith、GSM8K、AQUA-RAT、SVAMP)、符号推理(最后一个字母、硬币翻转)和其他逻辑推理任务(日期理解、跟踪打乱的对象),而无需任何手工制作的少样本示例,例如使用大型 InstructGPT 模型 (text-davinci-002) 将 MultiArith 的准确率从 17.7% 提高到 78.7%,将 GSM8K 从 10.4% 提高到 40.7%,并且与另一个现成的大型模型 540B 参数 PaLM 进行类似程度的改进。这种单一提示在非常多样化的推理任务中的多功能性暗示了 LLM 尚未开发和研究的基本零样本能力,这表明可以通过简单的提示来提取高水平、多任务的广泛认知能力。我们希望我们的工作不仅可以作为具有挑战性的推理基准的最小最强零样本基线,而且还强调了在制作微调数据集或少样本样本之前仔细探索和分析 LLM 中隐藏的大量零样本知识的重要性 ...

0 0 0 0 2026/03/09 arXiv:2205.11916v4 mouyxiao7

顺序建议旨在预测用户在大规模推荐系统中的下一个操作。尽管传统方法通常遭受信息交互的不足,但最近的生成建议模型通过直接生成项目预测来部分解决此问题。为了更好地捕获用户意图,最近的研究将推理过程引入了生成建议中,从而大大提高了建议性能 ...

0 0 0 0 2026/03/09 arXiv:2508.15308v4 OnFire

视觉隐喻构成了人类创造力的高阶形式,利用跨领域语义融合将抽象概念转化为有影响力的视觉修辞。尽管生成式人工智能取得了显着进步,但现有模型仍然很大程度上局限于像素级指令对齐和表面级外观保留,未能捕获真正隐喻生成所需的底层抽象逻辑。为了弥补这一差距,我们引入了视觉隐喻迁移(VMT)的任务,该任务挑战模型自动将“创意本质”与参考图像解耦,并将抽象逻辑重新具体化到用户指定的目标主题上。我们提出了一个认知启发的多智能体框架,通过新颖的模式语法(“G”)来操作概念混合理论(CBT)。这种结构化表示将关系不变量与特定视觉实体解耦,为跨域逻辑重新实例化提供了严格的基础。我们的管道通过专门代理的协作系统来执行VMT:感知代理将参考提炼成模式,传输代理保持通用空间不变性以发现合适的载体,用于高保真合成的生成代理和模仿专业批评家的分层诊断代理,执行闭环回溯以识别和纠正抽象逻辑、组件选择和提示编码中的错误。大量的实验和人类评估表明,我们的方法在隐喻一致性、类比适当性和视觉创造力方面显着优于 SOTA 基线,为广告和媒体中自动化的高影响力创意应用铺平了道路。源代码将公开 ...

0 0 0 0 2026/03/09 arXiv:2602.01335v1 qiuyan

实体图像可以为知识表示学习提供重要的视觉信息。大多数传统方法仅从结构化三元组学习知识表示,忽略从实体图像中提取的丰富视觉信息。在本文中,我们提出了一种新颖的图像体现知识表示学习模型(IKRL),其中知识表示是通过三重事实和图像来学习的。更具体地说,我们首先使用神经图像编码器构建实体的所有图像的表示。然后,通过基于注意力的方法将这些图像表示集成到基于聚合的图像表示中。我们在知识图补全和三重分类方面评估了 IKRL 模型。实验结果表明,我们的模型在这两项任务上都优于所有基线,这表明视觉信息对于知识表示的重要性以及我们的模型通过图像学习知识表示的能力 ...

0 0 0 0 2026/03/09 arXiv:1609.07028v2 hhhk