编码代理越来越多地用作通用问题解决器,但它们的灵活性本身并不能赋予专门任务所需的领域专业知识。最近的工作通过 \textit{代理技能} 解决了这个问题:可重用的工作流程和代码,可以增强代理的特定领域功能。今天的大多数技能都是手工制作的,现有的进化方法优化了与特定模型和任务紧密耦合的低级工件(例如提示和代码)。我们引入了 \textbf{EvoSkill},这是一个自我进化的框架,可以通过迭代故障分析自动发现和完善代理技能。 EvoSkill 分析执行失败,提出新技能或对现有技能进行编辑,并将其具体化到结构化、可重用的技能文件夹中。代理程序的帕累托前沿控制着选择,仅保留能够提高保留验证性能的技能,同时底层模型保持冻结状态。我们根据两个基准评估 EvoSkill:OfficeQA,这是一个针对美国财政部数据的基础推理基准,它将精确匹配准确度提高了 \textbf{7.3\%}(60.6\% $\to$ 67.9\%); SealQA,一个带有噪声检索的搜索增强 QA 基准,它产生 \textbf{12.1\%} 增益(26.6\% $\to$ 38.7\%)。我们还研究了从一项任务发展到另一项任务的技能的零样本转移能力;特别是:从 SealQA 演变而来的技能将零样本转移到 BrowseComp,在不进行修改的情况下将准确性提高了 \textbf{5.3\%},这表明技能级别优化产生了超出训练任务的可转移能力 ...

0 0 0 0 2026/03/12 arXiv:2603.02766v1 just_a_test

尽管ML模型培训和推断都是GPU密集型的,但基于CPU的数据处理通常是瓶颈。基于批处理或流处理模型的分布式数据处理系统假定均匀的资源要求。他们在基于CPU的计算方面表现出色,但要么不足以利用异质资源,要么对失败和重新配置施加了高度的开销 ...

0 0 0 0 2026/02/09 arXiv:2501.12407v5 just_a_test

近五年来,用于优化数据管理问题的机器学习(ML)技术得到了广泛研究和广泛部署。然而,传统的机器学习方法在泛化性(适应不同场景)和推理能力(理解上下文)方面存在局限性。幸运的是,大型语言模型(LLM)在理解上下文方面表现出了高度的通用性和人类竞争能力,这对于数据管理任务(例如数据库诊断、数据库调优)来说是有希望的。然而,现有的 LLM 有几个局限性:幻觉、成本高、复杂任务的准确性低。为了应对这些挑战,我们设计了LLMDB,一种LLM增强的数据管理范式,它具有通用性和高推理能力,同时避免幻觉,降低LLM成本,并实现高精度。 LLMDB嵌入了特定领域的知识,通过LLM微调和提示工程来避免产生幻觉。 LLMDB 通过提供语义搜索和缓存功能的矢量数据库降低了 LLM 的高成本。 LLMDB通过LLM代理提高了任务准确性,LLM代理提供多轮推理和管道执行。我们展示了 LLMDB 可以很好支持的三个现实场景,包括查询重写、数据库诊断和数据分析。我们还总结了 LLMDB 的开放研究挑战 ...

0 0 0 0 2026/02/08 arXiv:2402.02643v1 just_a_test

大型语言模型 (LLM) 已成为跨各种模式生成数据的强大工具。通过将数据从稀缺资源转变为可控资产, LLM 缓解了模型训练、评估和系统迭代的真实数据获取成本带来的瓶颈。然而,确保 LLM 生成的合成数据的高质量仍然是一个严峻的挑战。现有的研究主要集中在生成方法上,对结果数据质量的直接关注有限。此外,大多数研究仅限于单一模式,缺乏跨不同数据类型的统一视角。为了弥补这一差距,我们提出了 \textbf{LLM 数据审计框架}。在此框架中,我们首先描述如何利用 LLM 来跨六种不同模式生成数据。更重要的是,我们从质量和可信度两个维度对评估合成数据的内在指标进行系统分类。这种方法将焦点从依赖下游任务性能的外部评估转移到数据本身的固有属性。使用该评估系统,我们分析了每种模态的代表性生成方法的实验评估,并找出当前评估实践中的重大缺陷。基于这些发现,我们为社区提供了改进数据生成评估的具体建议。最后,该框架概述了跨不同模式的合成数据实际应用的方法 ...

0 0 0 0 2026/02/08 arXiv:2601.17717v2 just_a_test

在数据密集型,协作研究时代,确保科学数据的可信度和长期验证性是一项基础挑战。在这种情况下,出处元数据起着关键作用,捕获了研究工具的起源,转变和使用。但是,当应用于分布式的多机构设置时,现有的解决方案通常不足 ...

0 0 0 0 2025/08/19 arXiv:2505.24675v1 just_a_test