函数呼叫使大型语言模型(LLMS)能够充当使用工具的代理,但是将数千个工具模式注入提示是昂贵且容易出错的。我们介绍了MCP-Zero,这是一种主动的代理框架,使LLM本身可以决定何时以及要检索哪些外部工具,从而从头开始组装特定于任务的工具链。该框架建立在三个组件上:(1)主动工具请求,该模型在其中排放了结构化的$ \ left <\ operatatorName {tool \ _ assistant} \ right> $ block,该> $ block明确指定所需的服务器和任务; (2)层次矢量路由,这是一种首先选择候选服务器,然后根据语义相似性在每个服务器中对工具进行排名的粗略检索算法; (3)迭代主动调用,使多轮的跨域工具链构造具有最小的上下文开销,并允许在返回工具不足时迭代修改其请求 ...

0 0 0 0 2025/06/25 arXiv:2506.01056v4 JayLiu

在本文中,我们提供了我们的里程碑合奏排序作品和第一手实践经验,Pantheon,它将合奏从“人类策划的艺术”转变为“机器优化的科学”。与基于配方的合奏排序相比,我们的万神殿具有以下优点:(1)个性化的联合培训:我们的万神殿是通过实时排名模型共同培训的,该模型可以准确地捕获不断变化的用户个性化兴趣。 (2)表示继承:我们的万神殿不是高度压缩的PXTR,而是利用细颗粒的隐藏状态作为模型输入,这可以从排名模型中受益,以增强我们的模型复杂性 ...

0 0 0 0 2025/06/25 arXiv:2505.13894v1 buzz

我们介绍了Worldsense,这是第一个评估多模式视频理解的基准,该基准同时涵盖了视觉,音频和文本输入。与现有基准相反,我们的WorldSense具有多个功能:(i)Omni-Modosity的协作,我们设计了评估任务以具有强烈的音频和视频耦合,要求模型有效地利用Omni-Mododation的协同感知; (ii)视频和任务的多样性,WorldSense涵盖了1,662个音频视频的多样化集合,系统地分类为8个主要领域和67个细粒子类别,以涵盖广泛的方案,以及3,172个跨26个不同的QA Pairs,以遍及全面的评估; (iii)高质量的注释,所有质量检查对由80个具有多个校正的专家注释者手动标记,以确保质量。根据我们的世界义,我们广泛评估了各种最新模型 ...

0 0 0 0 2025/06/25 arXiv:2502.04326v2 zhangqi33

准确有效的提问系统对于在医疗领域提供高质量的患者护理至关重要。尽管大型语言模型(LLM)在各个领域取得了显着的进步,但它们在医学问题的回答中仍在面临重大挑战,尤其是在理解特定领域的术语和执行复杂的推理方面。这些限制破坏了它们在关键医疗应用中的有效性 ...

0 0 0 0 2025/06/25 arXiv:2501.05464v2 keve

有效的长期生成是大型语言模型的关键挑战。尽管最近稀疏的解码方法提高了效率,但它们却遭受了KV缓存未对准的损失,在这种情况下,近似错误会累积并降低产生质量。在这项工作中,我们提出了纠正的稀疏注意力(RESA),这是一种简单而有效的方法,将块状注意力与周期性密集的整流结合在一起 ...

0 0 0 0 2025/06/25 arXiv:2506.04108v2 Maggie

自我监督的学习(SSL)彻底改变了音频表示,但模型通常仍然是特定于领域的,重点是语音或非语音任务。在这项工作中,我们提出了通用的语音和音频蒸馏(USAD),这是一种统一的音频表示方法,将各种音频类型(语音,声音和音乐)整合到单个模型中。 USAD使用特定于域的SSL模型采用有效的层到层蒸馏,以在全面的音频数据集上培训学生 ...

0 0 0 0 2025/06/25 arXiv:2506.18843v1 irving

我们提出了Omni-R1,该OMNI-R1通过使用增强学习方法GRPO的音频问题来微调最近的多模式LLM QWEN2.5-OMNI。这导致了最近的MMAU基准的最新性能 ...

0 0 0 0 2025/06/25 arXiv:2505.09439v1 zhangqi33

最近,图形神经网络(GNNS)在推荐方面取得了显着的成功。为了减少数据稀疏性的影响,在基于GNN的CF方法中采用了图形对比学习(GCL)来增强性能。大多数GCL方法包括数据增强和对比损失(e ...

0 0 0 0 2025/06/25 arXiv:2302.02317v1 拾叁

最近的专有模型(例如O3)已开始证明强大的多模式推理能力 ...

0 0 0 0 2025/06/25 arXiv:2505.03981v1 keve

我们旨在评估大型语言模型(LLMS)进行具体决策。尽管大量的工作一直在利用LLM在具体的环境中进行决策,但我们仍然缺乏对其性能的系统性理解,因为它们通常用于不同的域,用于不同的目的,并基于不同的输入和输出而构建。此外,现有的评估倾向于仅依赖最终的成功率,因此很难确定LLM中缺少什么能力以及问题所在的地方,而问题又可以有效,有效地利用LLMS体现的代理 ...

0 0 0 0 2025/06/25 arXiv:2410.07166v3 mencius

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)