Transformer 旨在学习序列数据的远程交互,在各种任务上持续展示最先进的结果。与 CNN 相比,它们不包含优先考虑局部交互的归纳偏差。这使得它们具有表现力,但对于长序列(例如高分辨率图像)来说在计算上也是不可行的。我们演示了如何将 CNN 归纳偏置的有效性与 Transformer 的表现力相结合,使它们能够建模并从而合成高分辨率图像。我们展示了如何 (i) 使用 CNN 学习上下文丰富的图像成分词汇,然后 (ii) 利用转换器在高分辨率图像中有效地对其成分进行建模。我们的方法很容易应用于条件合成任务,其中非空间信息(例如对象类)和空间信息(例如分割)都可以控制生成的图像。特别是,我们提出了使用 Transformer 进行百万像素图像语义引导合成的第一个结果,并获得了类条件 ImageNet 上自回归模型的最新技术。代码和预训练模型可以在此 https URL 中找到 ...

0 0 0 0 2026/03/22 arXiv:2012.09841v3 wangteqi

本地计算机使用代理(CUA)的开发代表了多模式人工智能的重大飞跃。然而,它们的潜力目前受到静态数据扩展的限制。现有的范式主要依赖于静态数据集的被动模仿,难以捕捉长期计算机任务中固有的复杂因果动态。在这项工作中,我们介绍了 EvoCUA,一种本机计算机使用代理模型。与静态模仿不同,EvoCUA 将数据生成和策略优化集成到一个自我维持的进化循环中。为了缓解数据稀缺性,我们开发了一个可验证的合成引擎,可以自动生成各种任务以及可执行的验证器。为了实现大规模经验获取,我们设计了一个可扩展的基础设施,可协调数以万计的异步沙箱部署。基于这些巨大的轨迹,我们提出了一种迭代发展的学习策略,以有效地内化这种经验。该机制通过识别能力边界来动态调节策略更新——强化成功的例程,同时通过错误分析和自我纠正将失败轨迹转化为丰富的监督。 OSWorld 基准的实证评估表明,EvoCUA 的成功率达到 56.7%,建立了新的开源最先进水平。值得注意的是,EvoCUA 的性能显着优于之前最好的开源模型 OpenCUA-72B (45.0%),并超过了领先的封闭权重模型,如 UI-TARS-2 (53.1%)。至关重要的是,我们的结果强调了这种方法的普遍性:从经验中学习驱动的不断发展的范式在不同规模的基础模型中产生了一致的性能增益,为提升本地代理能力建立了一条强大且可扩展的路径 ...

0 0 0 0 2026/03/22 arXiv:2601.15876v2 jueli

我们首次探索了文本到文本转换器(T5)的句子嵌入。句子嵌入对于语言处理任务广泛有用。虽然 T5 在序列到序列映射问题的语言任务上取得了令人印象深刻的性能,但目前尚不清楚如何从编码器-解码器模型生成句子嵌入。我们研究了三种提取 T5 句子嵌入的方法:两种仅使用 T5 编码器,一种使用完整的 T5 编码器-解码器模型。为了支持我们的调查,我们建立了一个新的句子表示传输基准 SentGLUE,它将 SentEval 工具包扩展到 GLUE 基准的九个任务。我们的仅编码器模型在 SentEval 和 SentGLUE 传输任务(包括语义文本相似性 (STS))上均优于 Sentence-BERT 和 SimCSE 句子嵌入。研究发现,将 T5 从数百万个参数扩展到数十亿个参数可以产生持续的进一步改进。最后,我们的编码器-解码器方法在使用句子嵌入时在 STS 上实现了新的最先进技术。我们的模型在此 https URL 发布 ...

0 0 0 0 2026/03/22 arXiv:2108.08877v3 jkji

文档人工智能 (DAI) 已成为一个重要的应用领域,并因大型语言模型 (LLM) 的出现而发生了重大转变。虽然早期的方法依赖于编码器-解码器架构,但仅解码器的 LLM 已经彻底改变了 DAI,在理解和生成方面带来了显着的进步。本次调查全面概述了 DAI 的演变,重点介绍了 LLM 在该领域的当前研究尝试和未来前景。我们探讨了多模式、多语言和检索增强 DAI 的关键进展和挑战,同时还提出了未来的研究方向,包括基于代理的方法和特定于文档的基础模型。本文旨在对 DAI 的最新技术及其对学术和实际应用的影响进行结构化分析 ...

0 0 0 0 2026/03/22 arXiv:2510.13366v1 moshmode

个性化视觉生成模型以满足特定用户需求已引起越来越多的关注,但由于需要特定于任务的数据和冗长的优化,当前的方法(例如低秩适应(LoRA))仍然不切实际。虽然一些基于超网络的方法尝试直接预测适应权重,但它们很难将细粒度的用户提示映射到复杂的 LoRA 分布,从而限制了它们的实际适用性。为了弥补这一差距,我们提出了 LoFA,这是一种通用框架,可以有效预测个性化先验以实现快速模型适应。我们首先确定 LoRA 的一个关键属性:结构化分布模式出现在 LoRA 和基础模型参数之间的相对变化中。在此基础上,我们设计了一个两阶段的超网络:首先预测捕获关键适应区域的相对分布模式,然后使用它们来指导最终的 LoRA 权重预测。大量实验表明,我们的方法可以在几秒钟内一致地预测高质量的个性化先验,跨多个任务和用户提示,甚至优于需要数小时处理的传统 LoRA。项目页面:此 https URL ...

0 0 0 0 2026/03/22 arXiv:2512.08785v1 xuan

To tackle increasingly complex tasks, recent research on mobile agents has shifted towards multi-agent collaboration. Current mobile multi-agent systems are primarily deployed in the cloud, leading to high latency and operational costs.一个简单的想法是部署端云协同多智能体系统,这并不简单,因为直接扩展现有系统会带来新的挑战:(1)依赖云端验证需要上传手机屏幕截图,损害用户隐私; and (2) open-loop cooperation lacking device-to-cloud feedback, underutilizing device resources and increasing latency.为了克服这些限制,我们提出了 EcoAgent,这是一种闭环设备云协作多代理框架,专为隐私意识强、高效且响应迅速的移动自动化而设计。 EcoAgent将一种新颖的推理方法Dual-ReACT集成到基于云的Planning Agent中,充分利用云推理来补偿有限的设备容量,从而实现设备侧验证和轻量级反馈。此外,基于设备的观察代理利用预理解模块将屏幕内容总结为简洁的文本描述,在保护隐私的同时显着减少 Token 使用和设备云通信开销。 AndroidWorld 上的实验表明,EcoAgent 与完全基于云的代理的任务成功率相当,同时减少了资源消耗和响应延迟。我们的项目可以在这里找到:这个 https URL ...

0 0 0 0 2026/03/22 arXiv:2505.05440v3 hhhhh

Graph-RAG 从文本块构建知识图,以改进基于大语言模型 (LLM) 的问答中的检索。它在生物医学、法律和政治科学等领域特别有用,这些领域的检索通常需要对专有文档进行多跳推理。一些现有的 Graph-RAG 系统基于文本块相关性构建 KNN 图,但这种粗粒度的方法无法捕获文本内的实体关系,导致检索和生成质量低于标准。为了解决这个问题,最近的解决方案利用 LLM 从文本块中提取实体和关系,构建基于三元组的知识图。然而,这种方法会产生巨大的索引成本,特别是对于大型文档集合。为了确保良好的结果准确性,同时降低索引成本,我们提出了 KET-RAG,一种多粒度索引框架。 KET-RAG 首先识别一小组关键文本块,并利用 LLM 构建知识图骨架。然后,它根据所有文本块构建文本关键字二分图,作为完整知识图的轻量级替代方案。在检索过程中,KET-RAG 搜索两种结构:它遵循现有 Graph-RAG 系统在骨架上的局部搜索策略,同时在二分图上模仿这种搜索,以提高检索质量。我们在三个真实数据集上评估了 13 个解决方案,证明 KET-RAG 在索引成本、检索有效性和生成质量方面优于所有竞争对手。值得注意的是,它实现了与 Microsoft Graph-RAG 相当或更高的检索质量,同时将索引成本降低了一个数量级以上。此外,它将生成质量提高了 32.4%,同时将索引成本降低了约 20% ...

0 0 0 0 2026/03/22 arXiv:2502.09304v2 moshmode

大型语言模型 (LLM) 被广泛用作评估响应质量的法官,为人类评估提供了可扩展的替代方案。然而,大多数 LLM 法官仅进行基于文本的内在推理,这限制了他们验证复杂约束或执行准确计算的能力。受工具集成推理(TIR)在众多任务中取得成功的激励,我们提出了 TIR-Judge,这是一种用于培训 LLM 法官的端到端 RL 框架,它集成了代码执行器以进行精确评估。 TIR-Judge 建立在三个原则之上:(i) 跨可验证和不可验证领域的多样化训练,(ii) 灵活的判断格式(逐点、成对、列表),以及 (iii) 直接从初始模型引导而无需蒸馏的迭代强化学习。在 7 个公共基准测试中,TIR-Judge 超越基于强推理的判断高达 6.4%(逐点)和 7.7%(成对),并且尽管只有 8B 参数,但其列表性能与 Claude-Opus-4 相当。值得注意的是,TIR-Judge-Zero 完全在没有精炼法官轨迹的情况下进行训练,与精炼变体的性能相匹配,表明工具增强的法官可以通过迭代强化学习进行自我进化 ...

0 0 0 0 2026/03/22 arXiv:2510.23038v2 hxh123

双手操控已广泛应用于家庭服务和制造业,可以完成有协调要求的复杂任务。最近基于扩散的策略学习方法在模拟双手操作的动作分布方面取得了可喜的性能。然而,他们忽视了双手操作的物理安全限制,导致了对机器人和物体造成损害的危险行为。为此,我们提出了一种名为 SafeBimanual 的测试时轨迹优化框架,适用于任何预先训练的基于扩散的双手操作策略,该框架对双手动作施加安全约束,以避免危险的机器人行为,并提高成功率。具体来说,我们为不同双臂合作模式下的安全约束设计了多种成本函数,包括避免撕裂物体以及手臂与物体之间的碰撞,从而通过扩散降噪过程的引导采样来优化机械臂轨迹。此外,我们采用视觉语言模型(VLM)通过指定关键点和相应的成对关系来调度成本函数,从而在整个双手操作过程中动态生成最优安全约束。 SafeBimanual 在 RoboTwin 中的 8 项模拟任务上展现了优越性,与最先进的基于扩散的方法相比,成功率提高了 13.7%,不安全交互减少了 18.8%。对4个现实世界任务的大量实验进一步验证了其实用价值,成功率提高了32.5% ...

0 0 0 0 2026/03/22 arXiv:2508.18268v1 kavin

视觉-语言-动作(VLA)模型在泛化各种机器人操作任务方面表现出了卓越的能力。然而,由于对同时任务合规性和安全保证的迫切需求,特别是在防止物理交互期间潜在的碰撞方面,在非结构化环境中部署这些模型仍然具有挑战性。在这项工作中,我们引入了一种名为 AEGIS 的视觉语言安全操作(VLSA)架构,其中包含通过控制屏障函数制定的即插即用安全约束(SC)层。 AEGIS直接与现有的VLA模型集成,在理论上保证提高安全性,同时保持其原有的指令跟踪性能。为了评估我们架构的有效性,我们构建了一个全面的安全关键基准 SafeLIBERO,涵盖以不同程度的空间复杂性和障碍物干预为特征的不同操作场景。大量的实验证明了我们的方法相对于最先进的基线的优越性。值得注意的是,AEGIS在避障率方面实现了59.16%的提升,同时任务执行成功率大幅提升了17.25%。为了促进可重复性和未来的研究,我们在此 https URL 上公开提供我们的代码、模型和基准数据集 ...

0 0 0 0 2026/03/22 arXiv:2512.11891v1 kavin