代理人工智能系统越来越多地在共享的社交环境中运行,在那里它们交换信息、指令和行为线索。然而,关于这些代理在没有人类参与者或集中调节的情况下如何相互调节的经验证据却很少。在这项工作中,我们对 OpenClaw 代理在 Moltbook(一个仅代理的社交网络)上进行交互进行了实证分析。通过分析 14,490 名客服人员发布的 39,026 个帖子和 5,712 条评论,我们使用基于词典的行动诱导风险评分 (AIRS) 量化了行动诱导指令共享的流行程度,并检查了其他客服人员对此类内容的反应。我们发现 18.4% 的帖子包含诱导行动的语言,这表明指令共享是这种环境中的常规行为。虽然大多数社会反应都是中立的,但与非指导性帖子相比,包含可操作指示的帖子更有可能引发规范执行的回复,警告人们不要采取不安全或危险的行为。重要的是,这两种情况下的毒性反应仍然很少见。这些结果表明,OpenClaw 代理表现出选择性的社会监管,尽管缺乏人类监督,但潜在风险的指令比中性内容更有可能受到挑战。我们的研究结果提供了仅代理社会系统中新兴规范行为的早期经验证据,并强调了研究社会动态以及代理人工智能生态系统中的技术保障的重要性 ...

0 1 0 0 2026/03/14 arXiv:2602.02625v1 ZSChan

尽管以 OpenClaw 为代表的基于大语言模型 (LLM) 的代理正逐渐从面向任务的系统发展为用于解决复杂现实世界任务的个性化人工智能助手,但它们的实际部署也带来了严重的安全风险。然而,现有的代理安全研究和评估框架主要侧重于综合或以任务为中心的设置,因此无法准确捕获实际部署中个性化代理的攻击面和风险传播机制。为了解决这一差距,我们提出了个性化代理安全基准(PASB),这是一种专为现实世界的个性化代理量身定制的端到端安全评估框架。 PASB 基于现有的代理攻击范例,融合了个性化的使用场景、现实的工具链和长视野交互,实现了对真实系统的黑盒、端到端安全评估。以 OpenClaw 作为代表性案例研究,我们系统地评估了其跨多种个性化场景、工具功能和攻击类型的安全性。我们的结果表明,OpenClaw 在不同的执行阶段表现出严重的漏洞,包括用户提示处理、工具使用和内存检索,凸显了个性化代理部署中的重大安全风险。所提议的 PASB 框架的代码可从此 https URL 获取 ...

0 1 0 0 2026/03/14 arXiv:2602.08412v2 ZSChan

事实证明,检索增强生成(RAG)可以有效地将知识集成到大型语言模型(LLM)中。然而,传统的 RAG 很难捕捉知识片段之间的复杂关系,从而限制了它们在需要集成多个来源的知识的复杂推理中的性能。最近,图增强检索增强生成(GraphRAG)构建了图结构来显式建模这些关系,从而实现更有效和高效的检索器。尽管如此,它的性能仍然受到图结构中的噪声和不完整性的阻碍。为了解决这个问题,我们引入了 GFM-RAG,一种用于检索增强生成的新型图基础模型(GFM)。 GFM-RAG 由创新的图神经网络提供支持,该网络通过图结构进行推理以捕获复杂的查询知识关系。具有 8M 参数的 GFM 在大规模数据集上进行了两阶段训练过程,其中包括 60 个知识图、超过 1400 万个三元组和 70 万个文档。这使得 GFM-RAG 具有令人印象深刻的性能和通用性,使其成为第一个适用于未见过的数据集进行检索的图基础模型,无需任何微调。对三个多跳 QA 数据集和七个特定领域 RAG 数据集的广泛实验表明,GFM-RAG 实现了最先进的性能,同时保持了效率并与神经缩放定律保持一致,凸显了其进一步改进的潜力 ...

0 0 0 0 2026/03/14 arXiv:2502.01113v3 admin123456

主流的 3D 高斯分布 (3DGS) 加速方法无法在训练期间正确调节高斯数量,从而导致冗余的计算时间开销。在本文中,我们提出了FastGS,一种新颖、简单、通用的加速框架,基于多视图一致性,充分考虑每个高斯的重要性,有效解决训练时间和渲染质量之间的权衡。我们创新地设计了基于多视图一致性的致密化和剪枝策略,省去了预算机制。在 Mip-NeRF 360、Tanks & Temples 和 Deep Blending 数据集上进行的大量实验表明,我们的方法在训练速度方面显着优于最先进的方法,在 Mip-NeRF 360 数据集上与 DashGaussian 相比,实现了 3.32$\times$ 的训练加速和相当的渲染质量,在 Deep Blending 数据集上与普通 3DGS 相比,实现了 15.45$\times$ 的加速。我们证明 FastGS 具有很强的通用性,可以在各种任务中提供 2-7 倍的训练加速,包括动态场景重建、表面重建、稀疏视图重建、大规模重建以及同时定位和建图。项目页面可通过此 https URL 获取 ...

0 0 0 0 2026/03/14 arXiv:2511.04283v3 jojochen

在本文中,我们提出了一种新颖的框架,通过利用多代理系统的力量来增强大型语言模型(LLM)的能力。我们的框架引入了一个协作环境,其中多个智能代理组件(每个组件都具有独特的属性和角色)协同工作,可以更高效地处理复杂的任务。我们通过通用人工智能 (AGI) 的案例研究,特别关注 Auto-GPT 和 BabyAGI 模型,展示了我们框架的实用性和多功能性。我们还研究了“Gorilla”模型,它将外部 API 集成到 LLM 中。我们的框架解决了循环问题、安全风险、可扩展性、系统评估和道德考虑等限制和挑战。通过对法庭模拟和软件开发场景等各个领域进行建模,我们展示了我们提出的多代理系统的潜在应用和优势。我们的框架为通过智能代理之间的协作和知识交换来提高 LLM 的能力和绩效提供了途径 ...

0 0 0 0 2026/03/14 arXiv:2306.03314v1 SenAHo

自然场景分析和遥感图像为大规模语言引导的上下文感知数据利用的进步提供了巨大的潜力。这种潜力对于提高下游任务的性能尤其重要,例如通过设计的语言提示进行对象检测和分割。有鉴于此,我们引入了 CPSeg(细粒度语义分割的思想链语言提示),这是一种创新框架,旨在通过集成利用与图像相关的文本信息的新颖“思想链”过程来增强图像分割性能。这种开创性的方法已应用于洪水灾害场景。 CPSeg 对源自各种句子的提示文本进行编码,以形成连贯的思想链。我们提出了一个新的视觉语言数据集 FloodPrompt,其中包括图像、语义掩码和相应的文本信息。这不仅加强了对场景的语义理解,而且还通过像素和文本匹配图的相互作用来帮助完成语义分割的关键任务。我们的定性和定量分析验证了 CPSeg 的有效性 ...

0 0 0 0 2026/03/14 arXiv:2310.16069v2 13766783701

多模态大语言模型(MLLM)的最新进展显着提高了它们对单个图像的细粒度感知和对多个图像的一般理解。然而,现有的 MLLM 在复杂的多图像场景中实现精确接地仍然面临挑战。为了解决这个问题,我们首先探索一个思想链(CoT)框架,它将单图像基础与多图像理解相结合。虽然部分有效,但它仍然不稳定,并且由于其非端到端的性质而难以捕获抽象的视觉信息。因此,我们推出了 Migician,这是第一个能够跨多个图像执行自由形式和精确接地的多图像接地模型。为了支持这一点,我们提出了 MGrounding-630k 数据集,其中包含从现有数据集派生的多个多图像接地任务的数据,以及新生成的自由形式接地指令跟踪数据。此外,我们还提出了 MIG-Bench,这是一个专门为评估多图像接地能力而设计的综合基准。实验结果表明,我们的模型实现了显着优越的多图像接地能力,比现有最好的 MLLM 提高了 24.94%,甚至超过了更大的 70B 模型。我们的代码、模型、数据集和基准测试在此 https URL 上完全开源 ...

0 0 0 0 2026/03/14 arXiv:2501.05767v3 13766783701

本文对 NTIRE 2025 单图像高效超分辨率 (ESR) 挑战赛进行了全面回顾。该挑战赛旨在推进深度模型的开发,优化关键计算指标,即运行时间、参数和 FLOP,同时在 $\operatorname{DIV2K\_LSDIR\_valid}$ 数据集上实现至少 26.90 dB 的 PSNR,在 $\operatorname{DIV2K\_LSDIR\_test}$ 数据集上实现至少 26.99 dB 的 PSNR。 \textbf{244} 注册参赛者踊跃参与,\textbf{43} 团队提交了有效参赛作品。本报告仔细分析了这些方法和结果,强调了最先进的单图像 ESR 技术的突破性进步。该分析强调了创新方法,并为该领域的未来研究建立了基准 ...

0 0 0 0 2026/03/14 arXiv:2504.10686v1 gza

随着思想链(CoT)方法增强的大型语言模型(LLM)的出现,视觉推理问题通常被分解为可管理的子任务,并使用各种外部工具依次解决。然而,由于视觉信息不足以及低级感知工具的限制,无法提供综合推理所需的抽象概括,这种范式面临着决策中潜在的“确定幻觉”的挑战。我们认为,融合视觉上下文获取和逻辑推理对于解决视觉推理任务至关重要。本文深入研究了多模态 CoT 领域,以利用多模态大语言模型 (MLLM) 及其认知能力来解决复杂的视觉推理任务。为此,我们提出了一种创新的多模式 CoT 框架,称为 Cantor,其特点是感知-决策架构。 Cantor 首先充当决策生成器,并整合视觉输入来分析图像和问题,确保与实际环境更紧密地结合。此外,Cantor 利用 MLLM 的高级认知功能作为多方面专家来获取更高级别的信息,从而增强 CoT 生成过程。我们广泛的实验证明了所提出的框架的有效性,显示了跨两个复杂视觉推理数据集的多模态 CoT 性能的显着改进,而无需微调或基本原理。项目页面:此 https URL ...

0 0 0 0 2026/03/14 arXiv:2404.16033v1 13766783701

大型语言模型 (LLM) 的代码生成功能已经改变了软件开发领域。然而,这一进步也带来了重大的安全挑战,因为 LLM 生成的代码通常包含漏洞。研究方向之一是通过精心策划的数据集、模型调整或静态分析器注入或完善安全知识,从而增强 LLM 的能力。虽然在某些情况下有效,但这些方法可能会占用大量资源,不太适应零日漏洞,并且通常不适用于专有模型。为了应对这些挑战,我们引入了 GRASP,它探索了一个新的方向,专注于安全编码实践 (SCP) 的结构化推理,而不是额外的培训或外部反馈。 GRASP 包含两个关键思想:(1) SCP 图将 SCP 组织成有向无环图 (DAG),捕获依赖性和关系;(2) 基于图的推理过程,系统地指导 LLM 通过相关 SCP 进行代码生成。这种设计可以实现可解释、与模型无关且可扩展的安全改进,特别是对于以前未见过的漏洞。我们的评估表明,GRASP 在多个 LLM 中始终实现超过 80% 的安全率 (SR),并且在零日漏洞方面比基线提高了高达 88% ...

0 0 0 0 2026/03/14 arXiv:2510.09682v1 蛙isme