遥感 (RS) 大型视觉语言模型 (LVLM) 在视觉基础 (VG) 任务中显示出强大的前景。然而,现有的 RS VG 数据集主要依赖于显式引用表达式(例如相对位置、相对大小和颜色提示),从而限制了需要特定场景领域知识的隐式 VG 任务的性能。本文介绍了 DVGBench,这是一款针对无人机的高质量隐式 VG 基准测试,涵盖交通、灾害、安全、运动、社交和生产活动六大应用场景。每个对象都提供显式和隐式查询。基于该数据集,我们设计了 DroneVG-R1,这是一种 LVLM,它将新颖的隐式到显式思想链 (I2E-CoT) 集成到强化学习范式中。这使得模型能够利用特定于场景的专业知识,将隐式参考转换为显式参考,从而降低基础难度。最后,对显式和隐式 VG 任务的主流模型的评估揭示了它们推理能力的巨大局限性。这些发现为提高无人机代理的 LVLM 推理能力提供了可行的见解。代码和数据集将在此 https URL 发布 ...

0 0 0 0 2026/02/25 arXiv:2601.00998v1 jackxu

大型基础模型已经对视觉和语言中的复杂问题表现出了强大的开放世界泛化能力,但机器人技术尚未达到类似的泛化水平。一个根本挑战是模型表现出有限的零样本能力,这阻碍了它们有效推广到未见过的场景的能力。在这项工作中,我们提出了 GeneralVLA(具有知识引导轨迹规划的通用视觉语言动作模型),这是一种分层视觉语言动作(VLA)模型,可以更有效地利用基础模型的泛化,实现零样本操作并自动生成机器人数据。特别是,我们研究了一类分层 VLA 模型,其中高级 ASM(可供性分割模块)经过微调以感知场景的图像关键点可供性;中级 3DAgent 执行任务理解、技能知识和轨迹规划,以生成指示所需机器人末端执行器轨迹的 3D 路径。然后,中间 3D 路径预测将作为能够精确操纵的低级 3D 感知控制策略的指导。与其他方法相比,我们的方法不需要现实世界的机器人数据收集或人工演示,这使得它更适合不同的任务和观点。根据经验,GeneralVLA 成功生成了 14 项任务的轨迹,明显优于 VoxPoser 等最先进的方法。与使用人类演示或通过 VoxPoser、Scaling-up 和 Code-As-Policies 生成的数据进行训练相比,生成的演示可以训练更强大的行为克隆策略。我们相信 GeneralVLA 可以成为一种可扩展的方法,既可以为机器人生成数据,也可以在零样本环境中解决新任务。代码:此 https URL。网站:此 https URL ...

0 0 0 0 2026/02/25 arXiv:2602.04315v1 chenlei

机器学习是管理与海量数据相关的现实问题的核心。随着神经网络在此类大规模问题上的成功,现在对机器学习的研究比以往任何时候都多。本论文重点关注三个不同的项目,这些项目植根于机器学习应用的数学理论。第一个项目涉及监督学习和流形学习。理论上,监督学习的主要问题之一是函数逼近问题:也就是说,给定一些数据集$\mathcal{D}=\{(x_j,f(x_j))\}_{j=1}^M$,能否建立一个模型$F\approx f$?我们引入了一种方法,旨在弥补当前监督学习范式的一些理论缺陷。第二个项目涉及迁移学习,它研究如何利用在一个领域学习的近似过程或模型来改进另一个领域的近似。当假设数据仅在整个域的一部分上已知时,我们研究这种函数提升。我们感兴趣的是确定可以定义提升的目标数据空间的子集,以及函数的局部平滑度与其提升之间的关系。第三个项目涉及机器学习中的分类任务,特别是主动学习范式中的分类任务。分类通常也被视为近似问题,但我们提出了一种利用最初为信号分离问题引入的技术的替代方法。我们引入了将信号分离与分类相统一的理论,以及一种新算法,该算法与其他最新的主动学习算法相比,具有具有竞争力的准确性,同时提供结果的速度要快得多 ...

0 0 0 0 2026/02/25 arXiv:2602.17985v1 hwrabbit

确定有效的数据混合是大型语言模型 (LLM) 预训练的关键因素,其中模型必须平衡一般能力与数学和代码等困难任务的熟练程度。然而,确定最佳混合物仍然是一个开放的挑战,因为现有方法要么依赖于不可靠的小规模代理实验,要么需要极其昂贵的大规模探索。为了解决这个问题,我们提出了从训练混合中解耦搜索(DeMix),这是一种利用模型合并来预测最佳数据比率的新颖框架。 Instead of training proxy models for every sampled mixture, DeMix trains component models on candidate datasets at scale and derives data mixture proxies via weighted model merging.这种范例将搜索与训练成本解耦,能够在没有额外训练负担的情况下评估无限采样的混合物,从而通过更多的搜索试验促进更好的混合物发现。大量实验表明,DeMix 打破了充分性、准确性和效率之间的权衡,以更低的搜索成本获得了具有更高基准性能的最佳混合。 Additionally, we release the DeMix Corpora, a comprehensive 22T-token dataset comprising high-quality pre-training data with validated mixtures to facilitate open research. Our code and DeMix Corpora is available at this https URL. ...

0 0 0 0 2026/02/25 arXiv:2602.00747v1 mlp

随着人工智能代理变得越来越自主和能力越来越强,确保其安全性免受即时注入等漏洞的影响变得至关重要。本文探讨了使用信息流控制(IFC)为人工智能代理提供安全保障。我们提出了一个正式的模型来推理代理规划者的安全性和表达能力。使用该模型,我们描述了可通过动态污点跟踪强制执行的属性类别,并构建任务分类法来评估规划器设计的安全性和实用性权衡。受此探索启发,我们推出了 Fides,这是一种规划器,可以跟踪机密性和完整性标签,确定性地执行安全策略,并引入用于有选择地隐藏信息的新颖原语。 AgentDojo 中的评估表明,这种方法使我们能够在安全保证的情况下完成广泛的任务。可以在此 https URL 找到引导读者了解本文中介绍的概念的教程 ...

0 0 0 0 2026/02/25 arXiv:2505.23643v2 dropout

大型语言模型 (LLM) 推理性能越来越受到内存墙的限制。虽然 GPU 继续扩展原始计算吞吐量,但它们很难为内存带宽限制的工作负载提供可扩展的性能。新兴的推理 LLM 应用程序放大了这一挑战,其中长输出序列、低算术强度和严格的延迟限制要求显着更高的内存带宽。结果,系统利用率下降,每次推理的能耗上升,凸显了对可扩展内存带宽的优化系统架构的需求。为了应对这些挑战,我们推出了推理处理单元 (RPU),这是一种基于小芯片的架构,旨在解决现代内存墙的挑战。 RPU 引入了: (1) 容量优化高带宽内存 (HBM-CO),以容量换取更低的能耗和成本; (2) 可扩展的小芯片架构,具有带宽优先的功率和面积配置设计; (3) 分离的微架构,将内存、计算和通信管道分开,以维持高带宽利用率。仿真结果表明,与 Llama3-405B 上的 ISO-TDP 下的 H100 系统相比,RPU 的延迟降低了 45.3 倍,吞吐量提高了 18.6 倍 ...

0 0 0 0 2026/02/25 arXiv:2602.18568v2 jane88

基于神经网络的组合优化 (CO) 方法在解决各种 NP 完全 (NPC) 问题方面显示出了良好的结果,而无需依赖手工制作的领域知识。本文通过引入一种新的基于图的扩散框架(即 DIFUSCO),拓宽了当前 NPC 问题神经求解器的范围。我们的框架将 NPC 问题转化为离散的 {0, 1} 向量优化问题,并利用基于图的去噪扩散模型来生成高质量的解决方案。我们分别研究了两种具有高斯噪声和伯努利噪声的扩散模型,并设计了有效的推理方案来提高解决方案的质量。我们在两个经过充分研究的 NPC 组合优化问题上评估我们的方法:旅行商问题 (TSP) 和最大独立集 (MIS)。实验结果表明,DIFUSCO 的性能明显优于之前最先进的神经求解器,将 TSP-500 上的真实值与神经求解器之间的性能差距从 1.76% 改善到 0.46%,在 TSP-1000 上从 2.46% 改善到 1.17%,在 TSP10000 上从 3.19% 改善到 2.58%。对于 MIS 问题,DIFUSCO 在具有挑战性的 SATLIB 基准测试中优于之前最先进的神经求解器 ...

0 0 0 0 2026/02/25 arXiv:2302.08224v2 alex666

代理内存系统通常采用标准检索增强生成(RAG)管道,但其基本假设在此设置中有所不同。 RAG 的目标是大型、异构的语料库,其中检索到的段落是多种多样的,而代理记忆是有界的、连贯的对话流,具有高度相关的跨度,而且通常是重复的。在这种转变下,固定的 top-$k$ 相似性检索往往会返回冗余上下文,而事后修剪可以删除正确推理所需的时间相关的先决条件。我们认为检索应该超越相似性匹配,而是在解耦到聚合之后对潜在组件进行操作:将记忆分解为语义组件,将它们组织成层次结构,并使用此结构来驱动检索。我们提出 xMemory,它构建完整单元的层次结构,并通过指导内存分割和合并的稀疏语义目标维护可搜索但忠实的高级节点组织。在推理时,xMemory 自上而下检索,为多事实查询选择一组紧凑、多样化的主题和语义,并仅在减少读者的不确定性时扩展到情节和原始消息。在三个最新的 LLM 上对 LoCoMo 和 PerLTQA 进行的实验表明,答案质量和 Token 效率都有所提高 ...

0 0 0 0 2026/02/25 arXiv:2602.02007v1 ymx

生成人工智能 (GenAI) 系统越来越多地部署在不同的行业和研究领域。开发人员和最终用户通过使用提示和提示工程与这些系统进行交互。尽管提示工程是一个被广泛采用和广泛研究的领域,但由于其相对较新的出现,它存在术语冲突和对有效提示的本体论理解支离破碎的问题。我们通过组装提示技术的分类并分析其应用来建立对提示工程的结构化理解。我们提供了 33 个词汇术语的详细词汇表、58 种 LLM 提示技巧的分类以及 40 种其他模式的技巧。此外,我们还提供提示工程的最佳实践和指南,包括提示最先进 (SOTA) LLM (例如 ChatGPT)的建议。我们进一步对自然语言前缀提示的整个文献进行了荟萃分析。作为这些努力的结晶,本文提出了迄今为止最全面的即时工程调查 ...

0 0 0 0 2026/02/24 arXiv:2406.06608v6 hust666

深度学习和大型语言模型(LLM)的最新进展促进了专家混合(MoE)机制在股票投资领域的部署。虽然这些模型表现出了有希望的交易性能,但它们通常是单模态的,忽略了其他模态中可用的大量信息,例如文本数据。此外,传统的基于神经网络的路由器选择机制未能考虑上下文和现实世界的细微差别,导致专家选择不理想。为了解决这些限制,我们提出了 LLMoE,这是一种采用 LLM 作为 MoE 架构中的路由器的新颖框架。具体来说,我们用 LLM 取代了传统的基于神经网络的路由器,利用他们广泛的世界知识和推理能力,根据历史价格数据和股票新闻来选择专家。这种方法提供了一种更有效和可解释的选择机制。我们对多模式真实世界股票数据集的实验表明,LLMoE 优于最先进的 MoE 模型和其他深度神经网络方法。此外,LLMoE 灵活的架构可以轻松适应各种下游任务 ...

0 0 0 0 2026/02/24 arXiv:2501.09636v2 nnstake