像 SWE-bench 这样的基准已经标准化了大型语言模型 (LLM) 对存储库级软件工程任务的评估。然而,这些努力仍然受到手动管理、静态数据集以及对基于 Python 的错误修复的关注的限制。我们引入了 SWE-Bench++,这是一个自动化框架,可以从开源 GitHub 项目生成存储库级编码任务。与综合方法不同,我们的管道收集实时拉取请求以涵盖 11 种语言的错误修复和功能请求。 SWE-Bench++ 通过四个阶段将 GitHub 拉取请求 (PR) 转化为可重复的、基于执行的任务:程序化采购、环境综合、测试预言机提取和质量保证。最后的提示引导轨迹合成步骤将强模型失败的实例转换为训练轨迹。我们的初始基准测试由来自 11 种语言 3,971 个存储库的 11,133 个实例组成。在该基准测试的 1,782 个实例的子集中,当今最强的模型表现如下:claude-sonnet-4.5 达到 36.20% pass@10、gpt-5-2025-08-07 34.57%、gemini/gemini-2.5-pro 24.92% 和 gpt-4o 16.89%。我们通过展示 SWE-Bench++ 实例的微调在 SWE-bench 多语言基准上产生可测量的改进来进一步证明我们的数据集的实用性。 SWE-Bench++ 提供了一个可扩展的多语言基准,用于评估和改进存储库级代码生成 ...

0 0 0 0 2026/04/07 arXiv:2512.17419v1 夹心

我们推出了 PaddleOCR-VL-1.5,这是一种升级版模型,在 OmniDocBench v1.5 上实现了 94.5% 的最新最先进 (SOTA) 准确率。为了严格评估针对现实世界物理扭曲(包括扫描、倾斜、扭曲、屏幕摄影和照明)的鲁棒性,我们提出了 Real5-OmniDocBench 基准。实验结果表明,该增强模型在新制定的基准测试中实现了 SOTA 性能。此外,我们通过合并印章识别和文本识别任务来扩展模型的功能,同时保持 0.9B 超紧凑 VLM 的高效率。代码:这个https URL ...

0 0 0 0 2026/04/07 arXiv:2601.21957v2 AI_Gsq

基于 LLM 的代理在长视野推理方面表现出强大的潜力,但它们的上下文大小受到部署因素(例如内存、延迟和成本)的限制,从而产生了有限的上下文预算。随着交互历史的增长,这会导致在保留过去的信息和保持在上下文限制之间进行权衡。为了应对这一挑战,我们提出了预算感知上下文管理(BACM),它将上下文管理制定为具有上下文预算约束的顺序决策问题。它使代理能够在合并新的观察结果之前评估可用预算,并决定何时压缩交互历史记录以及压缩多少。我们进一步开发了 BACM-RL,这是一种基于端到端课程的强化学习方法,可以在不同的背景预算下学习压缩策略。组合多目标 QA 和长视野 Web 浏览基准的实验表明,BACM-RL 在模型规模和任务复杂性方面始终优于先前的方法,在高复杂性设置中比强基线实现了超过 1.6 倍的收益,同时在预算缩减时保持了强大的优势,其中大多数方法表现出性能下降的趋势 ...

0 0 0 0 2026/04/07 arXiv:2604.01664v1 wcy0909

我们推出了LongCat-Flash-Omni,这是一个最先进的开源全模态模型,拥有5600亿个参数,擅长实时视听交互。通过采用受课程启发的渐进式训练策略,从简单的模态序列建模任务过渡到日益复杂的模态序列建模任务,LongCat-Flash-Omni 获得了全面的多模态能力,同时保持了强大的单模态能力。 LongCat-Flash-Omni在LongCat-Flash的基础上,采用了零计算专家的高性能快捷连接专家混合(MoE)架构,集成了高效的多模态感知和语音重建模块 ...

0 0 0 0 2026/04/07 arXiv:2511.00279v2 mlp

随着大型语言模型 (LLM) 在执行上下文预测任务中越来越受欢迎,了解上下文学习中的不确定性来源对于确保可靠性至关重要。最近的上下文学习执行预测贝叶斯推理的假设为贝叶斯不确定性估计开辟了道路,特别是由于缺乏上下文数据和上下文预测任务固有的任意不确定性,将不确定性分解为认知不确定性。然而,由于底层贝叶斯模型的潜在参数后验的棘手性,分解思想仍未得到充分探索。在这项工作中,我们引入了一种用于上下文学习的变分不确定性分解框架,无需从潜在参数后验中显式采样,通过优化辅助查询作为探针来获得 LLM 上下文学习过程的任意不确定性的上限,这也导致了认知不确定性的下限。通过对合成任务和现实世界任务的实验,我们定量和定性地表明,从我们的方法获得的分解不确定性表现出认知和任意不确定性的理想特性 ...

0 0 0 0 2026/04/07 arXiv:2509.02327v3 Cauchy

对抗场景生成是一种具有成本效益的自动驾驶系统安全评估的方法。但是,现有方法通常被限制在竞争目标(例如对抗性和现实主义)之间的一个固定权衡。这产生了特定于行为的模型,这些模型在推理时间无法转动,缺乏为各种培训和测试要求生成量身定制的方案的效率和灵活性 ...

0 0 0 0 2026/04/07 arXiv:2509.20102v2 sj123

虽然针对特定任务的演示显示了应用大型语言模型 (LLM) 来自动化某些天文学研究任务的早期成功,但它们仅提供了解决天文学问题的所有必要功能的不完整视图,需要更全面地了解 LLM 的优势和局限性。到目前为止,现有的基准和评估侧重于简单的问答,主要测试天文学知识,未能评估该学科现实世界研究所需的复杂推理。在这里,我们通过在国际天文学和天体物理学奥林匹克(IOAA)考试中系统地对五位最先进的 LLM 进行基准测试来解决这一差距,这些考试旨在检查深刻的概念理解、多步骤推导和多模式分析。 Gemini 2.5 Pro和GPT-5(两款表现最好的型号)的平均分分别为85.6%和84.2%,不仅达到了金牌级别的表现,而且在所有四次IOAA理论考试(2022-2025)评估的约200-300名参与者中排名前两名。相比之下,数据分析考试的结果显示出更大的差异。 GPT-5 在考试中仍然表现出色,平均得分为 88.5%,在最近四次 IOAA 的参与者中排名前 10,而其他模型的表现则下降至 48-76%。此外,我们深入的错误分析强调概念推理、几何推理和空间可视化(准确率 52-79%)是所有 LLM 的一致弱点。因此,尽管 LLM 在理论考试中接近人类的最高表现,但在他们成为天文学的自主研究代理人之前,必须解决关键的差距 ...

0 0 0 0 2026/04/07 arXiv:2510.05016v2 liuyujia

本文提出了一种基础语言图像预训练(GLIP)模型,用于学习对象级、语言感知和语义丰富的视觉表示。 GLIP 统一了预训练的对象检测和短语基础。这种统一带来了两个好处:1)它允许 GLIP 从检测和接地数据中学习,以改进这两项任务并引导良好的接地模型; 2) GLIP 可以通过以自我训练的方式生成接地框来利用大量的图像文本对,使学习到的表示语义丰富。在我们的实验中,我们在 2700 万个基础数据上预训练 GLIP,其中包括 300 万个人工注释和 2400 万个网络抓取的图像文本对。学习到的表示展示了对各种对象级识别任务的强大的零样本和少样本可迁移性。 1)当直接在 COCO 和 LVIS 上评估时(在预训练期间没有在 COCO 中看到任何图像),GLIP 分别达到 49.8 AP 和 26.9 AP,超过了许多监督基线。 2)在COCO上进行微调后,GLIP在val上达到60.8 AP,在test-dev上达到61.5 AP,超越了之前的SoTA。 3) 当转移到 13 个下游目标检测任务时,1-shot GLIP 可以与完全监督的动态头相媲美。代码在此 https URL 发布 ...

0 0 0 0 2026/04/07 arXiv:2112.03857v2 18804024672

天文学研究长期以来一直依赖人类的专业知识来解释复杂的数据并提出科学假设。在这项研究中,我们介绍了 Mephisto——一种由大型语言模型 (LLM) 提供支持的多智能体协作框架,可模拟类人推理来分析多波段星系观测结果。 Mephisto 与 CIGALE 代码库(光谱能量分布、SED、模型库)交互,根据观测数据迭代地完善物理模型。它通过树搜索进行深思熟虑的推理,通过自我游戏积累知识,并动态更新知识库。经过不同星系群(包括詹姆斯·韦伯太空望远镜最近发现的“小红点”星系)的验证,我们表明墨菲斯托在通过多波段光度测量推断星系物理特性方面表现出熟练程度,将其定位为天文学家有前途的研究副驾驶。与之前天文学中的黑盒机器学习方法不同,Mephisto 提供了透明的、人性化的推理过程,可以与现有的研究实践无缝集成。这项工作强调了 LLM 驱动的基于代理的天文学研究的可能性,为完全自动化、端到端人工智能(AI)驱动的科学工作流程奠定了基础,并为天文学中人工智能增强的发现开辟了新途径 ...

0 0 0 0 2026/04/07 arXiv:2510.08354v1 liuyujia

大型语言模型 (LLM) 在各种人工智能 (AI) 和自然语言处理任务中表现出了令人印象深刻的性能,例如内容创建、报告生成等。然而,这些模型的不受监管的恶意应用可能会造成不良后果,例如生成假新闻、抄袭等。因此,准确检测人工智能生成的语言对于负责任地使用 LLM 至关重要。在这项工作中,我们探讨了 1)特定文本正文是由人工智能生成还是由人类编写,以及 2)特定语言模型在生成文本正文时的归因。考虑英语和西班牙语文本。本研究中使用的数据集作为自动文本识别 (AuTexTification) 共享任务的一部分提供。对于上述每个研究目标,我们提出了一个集成神经模型,该模型从不同的预训练 LLM 生成概率,这些概率用作随后的传统机器学习 (TML) 分类器的特征。对于区分人工智能和人类生成文本的第一个任务,我们的模型在英语和西班牙语文本中分别排名第五和第十三(宏观 $F1$ 得分为 0.733 和 0.649)。对于第二个模型归因任务,我们的模型排名第一,英语和西班牙语文本的宏观 $F1$ 得分分别为 0.625 和 0.653 ...

0 0 0 0 2026/04/07 arXiv:2309.07755v1 lsy_seu