arxiv的文档

Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2

我们介绍了Alphageometry2，这是Trinh等人（2024）中引入的字母计量法的显着改进版本，现在已经超过了解决奥林匹克几何学问题的平均金牌得主。为了实现这一目标，我们首先将原始的字母计量学语言扩展到解决涉及对象运动的更严重问题，以及包含角度，比率和距离的线性方程的问题 ...

0 0 0 0 2025/12/10 arXiv:2502.03544v3 godsallen

GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning

随着大视觉语言模型的快速发展，图形用户界面（GUI）代理任务的重点从单屏任务转向复杂的屏幕导航挑战。然而，现实世界的GUI环境，例如PC软件和移动应用程序，通常是复杂且专有的，使得很难获得代理训练和评估所需的全面环境信息。这种限制阻碍了代理导航能力的系统调查和基准测试。为了解决这个限制，我们引入了 GUI Exploration Lab，这是一个用于 GUI 代理导航研究的模拟环境引擎，可以灵活定义和组合屏幕、图标和导航图，同时提供对环境信息的完全访问，以进行全面的代理培训和评估。通过大量实验，我们发现监督微调可以有效记忆基础知识，为后续训练奠定重要基础。在此基础上，单轮强化学习进一步增强了对未见过场景的泛化能力。最后，多轮强化学习鼓励通过交互式试错来开发探索策略，从而进一步提高屏幕导航性能。我们在静态和交互式基准上验证了我们的方法，证明我们的发现可以有效地推广到现实世界的场景。这些发现证明了强化学习方法在 GUI 导航中的优势，并为构建功能更强、更通用的 GUI 代理提供了实用指导 ...

0 0 0 0 2025/12/10 arXiv:2512.02423v1 JasperYu

Measuring the Impact of Rotation Equivariance on Aerial Object Detection

由于航拍图像中物体的任意方向，旋转等方差是航拍物体检测器的一个关键属性。然而，最近关于旋转等变空中物体检测的研究仍然很少。大多数检测器依靠数据增强来使模型能够学习近似旋转等变特征。一些检测器构建了旋转等变网络，但由于典型的下采样过程打破了严格的旋转等变性，这些网络只能实现近似旋转等变的主干网。航空图像目标检测是否需要严格的旋转等变仍然是一个悬而未决的问题。在本文中，我们实现了具有更先进网络结构的严格旋转等变主干和颈部网络，并将其与近似旋转等变网络进行比较，以定量测量旋转等变对航空图像检测器性能的影响。此外，利用旋转等变特征的固有分组性质，我们提出了一种多分支头网络，可以减少参数数量，同时提高检测精度。基于上述改进，本研究提出了多分支头部旋转等变单级检测器（MessDet），它以极低的参数数在具有挑战性的航空图像数据集 DOTA-v1.0、DOTA-v1.5 和 DIOR-R 上实现了最先进的性能 ...

0 0 0 0 2025/12/10 arXiv:2507.09896v1 COO

Unifying Large Language Models and Knowledge Graphs: A Roadmap

ChatGPT 和 GPT4 等大型语言模型 (LLM) 凭借其新兴能力和泛化性，正在自然语言处理和人工智能领域掀起新的浪潮。然而， LLM 是黑盒模型，通常无法捕获和获取事实知识。相比之下，知识图谱（KG）、维基百科和花谱等都是结构化知识模型，显式存储丰富的事实知识。知识图谱可以通过提供用于推理和可解释性的外部知识来增强 LLM 。同时，知识图谱本质上难以构建和进化，这对知识图谱中现有的生成新事实和表示未见知识的方法提出了挑战。因此，将LLM和KG结合起来，同时发挥各自的优势，是互补的。在本文中，我们提出了 LLM 和 KG 统一的前瞻性路线图。我们的路线图由三个总体框架组成，即1）知识图谱增强型 LLM ，在 LLM 的预训练和推理阶段纳入知识图谱，或者为了增强对 LLM 所学知识的理解； 2）LLM增强知识图谱，利用LLM来完成不同的知识图谱任务，例如嵌入、完成、构造、图文生成和问答； 3）协同LLM+KG，其中LLM和KG发挥同等作用，以互惠互利的方式工作，以增强LLM和KG的数据和知识驱动的双向推理能力。我们在路线图中回顾和总结了这三个框架内的现有工作，并确定了它们未来的研究方向 ...

0 0 0 0 2025/12/10 arXiv:2306.08302v3 funer7

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

大型语言模型 (LLM) 的一项核心功能是遵循自然语言指令。然而，在无需手动注释的情况下自动构建高质量训练数据以增强 LLM 复杂的指令跟踪能力的问题仍未解决。在本文中，我们介绍了 AutoIF，这是第一个用于自动生成指令跟踪训练数据的可扩展且可靠的方法。 AutoIF将指令跟随数据质量的验证转化为代码验证，要求LLM生成指令，生成相应的代码来检查指令响应的正确性，并通过单元测试样本来验证代码的正确性。然后，基于执行反馈的拒绝采样可以生成用于监督微调（SFT）和人类反馈强化学习（RLHF）训练的数据。当 AutoIF 在自对准和强到弱蒸馏设置中应用于顶级开源 LLM Qwen2 和 LLaMA3 时，在 SFT、离线 DPO 和在线 DPO 三种训练算法上实现了显着改进。我们的代码可通过此 https URL 公开获取 ...

0 0 0 0 2025/12/10 arXiv:2406.13542v3 bage

Hybrid-DMKG: A Hybrid Reasoning Framework over Dynamic Multimodal Knowledge Graphs for Multimodal Multihop QA with Knowledge Editing

多模态知识编辑（MKE）将传统知识编辑扩展到涉及文本和视觉模态的设置。然而，现有的 MKE 基准主要评估最终答案的正确性，而忽略了中间推理的质量和对视觉重新表述输入的稳健性。为了解决这个限制，我们引入了 MMQAKE，这是第一个具有知识编辑功能的多模式多跳问答基准。 MMQAKE 评估 (1) 模型推理跨越文本和图像的 2-5 跳事实链的能力，包括每个中间步骤的性能，以及 (2) 对多跳问题中视觉改写输入的鲁棒性。我们的评估表明，当前的 MKE 方法在知识编辑后往往难以持续更新和推理多模态推理链。为了克服这些挑战，我们提出了 Hybrid-DMKG，这是一种基于动态多模态知识图（DMKG）构建的混合推理框架，可以对更新的多模态知识进行准确的多跳推理。 Hybrid-DMKG 首先使用大型语言模型将多模态多跳问题分解为顺序子问题，然后应用多模态检索模型通过将每个子问题与候选实体及其关联图像联合编码来定位更新的事实。对于答案推理，混合推理模块通过两条并行路径在 DMKG 上运行：(1) 关系链接预测，以及 (2) 使用大型视觉语言模型进行 RAG 推理。决策模块汇总来自两条路径的证据以选择最可信的答案。 MMQAKE 上的实验结果表明，Hybrid-DMKG 显着优于现有的 MKE 方法，实现了更高的准确性并提高了知识更新的鲁棒性 ...

0 0 0 0 2025/12/10 arXiv:2512.00881v1 13766783701

ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering

多模态大语言模型 (MLLM) 在共同理解文本、图像和视频方面表现出了令人印象深刻的能力，通常通过视觉问答 (VQA) 进行评估。然而，即使是最先进的 MLLM 也难以应对特定领域或知识密集型查询，其中相关信息在预训练数据中的代表性不足。基于知识的 VQA (KB-VQA) 通过检索外部文档来条件回答生成来解决这个问题，但当前的检索增强方法存在精度低、段落噪音大和推理有限的问题。为了解决这个问题，我们提出了 ReAG，这是一种新颖的推理增强多模态 RAG 方法，它将粗粒度和细粒度检索与过滤不相关段落的批评模型相结合，确保高质量的附加上下文。该模型遵循多阶段训练策略，利用强化学习来增强对检索内容的推理，而监督微调仅作为冷启动。 Encyclopedic-VQA 和 InfoSeek 的大量实验表明，ReAG 显着优于先前的方法，提高了答案准确性并提供基于检索到的证据的可解释推理。我们的源代码可在以下位置公开获取：此 https URL ...

0 0 0 0 2025/12/10 arXiv:2511.22715v1 13766783701

Exploring Large Language Model based Intelligent Agents: Definitions, Methods, and Prospects

智能代理作为通向通用人工智能（AGI）的潜在途径脱颖而出。因此，研究人员投入了大量精力来实现它们的多样化。受益于大语言模型 (LLM) 的最新进展，使用通用自然语言作为界面的基于 LLM 的代理在各种应用程序中表现出强大的泛化能力——从充当自主通用任务助手到编码、社会和经济领域的应用程序，基于 LLM 的代理提供了广泛的探索机会。本文调查了当前的研究，深入概述了单代理和多代理系统中基于 LLM 的智能代理。它涵盖了它们的定义、研究框架和基本组成部分，例如它们的组成、认知和规划方法、工具利用以及对环境反馈的响应。我们还深入研究了在多代理系统中部署基于 LLM 的代理的机制，包括多角色协作、消息传递以及缓解代理之间通信问题的策略。讨论还揭示了流行的数据集和应用场景。最后，考虑到人工智能和自然语言处理不断发展的前景，我们展望了基于 LLM 的代理的前景 ...

0 0 0 0 2025/12/10 arXiv:2401.03428v1 funer7

Multimodal Transformers for Wireless Communications: A Case Study in Beam Prediction

具有大型天线阵列的高频段无线通信面临波束管理方面的挑战，而来自摄像头、激光雷达、雷达和 GPS 的多模态传感信息可能会改善这一挑战。在本文中，我们提出了一种用于传感辅助光束预测的多模态 Transformer 深度学习框架。我们采用卷积神经网络从随时间采样的一系列图像、点云和雷达原始数据中提取特征。在每个卷积层，我们使用变换器编码器来学习抽象空间上不同模态和时间实例的特征标记之间的隐藏关系，并生成用于下一级特征提取的编码向量。我们将不同模式与监督学习相结合来训练模型。我们尝试利用焦点损失和指数移动平均来增强不平衡数据的模型。我们还评估数据处理和增强技术，例如图像增强、分割、背景过滤、多模态数据翻转、雷达信号转换和 GPS 角度校准。实验结果表明，我们的解决方案经过图像和 GPS 数据训练，可产生基于距离的最佳预测波束准确度，达到 78.44%，对未见过的白天场景的有效泛化能力接近 73%，夜间场景的泛化能力超过 84%。这优于使用其他模式和任意数据处理技术，这证明了具有特征融合的 Transformer 在根据图像和 GPS 执行无线电波束预测方面的有效性。此外，我们的解决方案可以根据大量多模态无线数据进行预训练，对多个下游无线电网络任务进行微调 ...

0 0 0 0 2025/12/10 arXiv:2309.11811v1 HeiHuZi

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

这项工作介绍了SA2VA，这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同，SA2VA支持广泛的图像和视频任务，包括参考细分和对话，并以最少的单次指令调整调整。 SA2VA结合了SAM-2（基础视频细分模型）与Llava（一个先进的视觉语言模型）结合在一起，将文本，图像和视频统一为共享的LLM Token 空间 ...

0 0 0 0 2025/12/10 arXiv:2501.04001v3 chengwenxuan7