一译 —— 文档和论文翻译、对照阅读、讨论和社区

Open Deep Search: Democratizing Search with Open-source Reasoning Agents

我们介绍开放的深度搜索（ODS），以缩小专有搜索AI解决方案之间的差距，例如《困惑的声纳推理》和OpenAI的GPT-4O搜索预览及其开源对应物。 ODS引入的主要创新是通过推理代理可以明智地使用Web搜索工具来回答查询的最新开源LLM的推理能力。具体而言，ODS由两个组件组成，这些组件与用户选择的基本LLM一起使用：打开搜索工具和打开推理代理 ...

0 0 0 2025/03/29 arXiv:2503.20201v1 liuweitang

Large Language Model Agent: A Survey on Methodology, Applications and Challenges

智能代理商的时代来自我们，这是由大语言模型的革命进步驱动的。具有目标驱动行为和动态适应能力的大型语言模型（LLM）代理可能代表了人工通用智能的关键途径。该调查通过以方法论为中心的分类法，将建筑基础，协作机制和进化途径联系起来，系统地解构了LLM代理系统 ...

0 0 0 2025/03/28 arXiv:2503.21460v1 niuzai

Large Language Model-Brained GUI Agents: A Survey

GUI 长期以来一直是人机交互的核心，提供了一种直观且视觉驱动的方式来访问数字系统并与之交互。 LLM ，特别是多模式模型的出现，开创了 GUI 自动化的新时代。他们在自然语言理解、代码生成和视觉处理方面表现出了卓越的能力 ...

0 0 0 2025/03/28 arXiv:2411.18279v10 xjx0524

Tree-based RAG-Agent Recommendation System: A Case Study in Medical Test Data

我们提出了锤打（分层抹布增强的医学测试建议），这是一种新颖的树结构推荐系统，利用检索效果的生成（RAG）进行智能医疗测试建议。与传统的基于矢量相似性的方法不同，我们的系统通过专门的抹布过程在每个树节点上执行医学推理。从具有初始症状的根节点开始，该系统将进行逐步的医学分析，以识别潜在的潜在条件及其相应的诊断要求 ...

0 0 0 2025/03/28 arXiv:2501.02727v1 15872922001

LocAgent: Graph-Guided LLM Agents for Code Localization

代码本地化 - 确切地确定需要进行代码库中的更改的位置 - 是软件维护中的基本而又具有挑战性的任务。在识别相关代码部分时，现有方法难以有效地导航复杂的代码库。挑战在于将自然语言问题描述与适当的代码元素桥接，通常需要跨层次结构和多个依赖性进行推理 ...

0 0 0 2025/03/28 arXiv:2503.09089v1 leec

AgentRxiv: Towards Collaborative Autonomous Research

科学发现的进展很少是一个“尤里卡”时刻的结果，而是数百名科学家逐步朝着共同目标共同努力的产物。尽管现有的代理工作流程能够自主进行研究，但它们会孤立地进行研究，而无需不断改进先前的研究结果。为了应对这些挑战，我们介绍了AgentRxiv-A框架，该框架使LLM Agent Laboratories上传并从共享的预印式服务器中检索报告，以便协作，共享见解并迭代地互相研究 ...

0 0 0 2025/03/28 arXiv:2503.18102v1 GiveYouAFIst

UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

最近的DeepSeek-R1通过加强学习（RL）和基于规则的奖励展示了LLMS推理能力的出现。在这个想法的基础上，我们是第一个探索基于规则的RL如何增强图形用户界面（GUI）操作预测任务的多模式大语言模型（MLLM）的推理功能。为此，我们策划了136个具有挑战性的任务的小型但高质量的数据集，其中包括移动设备上的五种常见动作类型 ...

0 0 0 2025/03/28 arXiv:2503.21620v1 liuweitang

VTutor: An Open-Source SDK for Generative AI-Powered Animated Pedagogical Agents with Multi-Media Output

大语言模型（LLMS）的快速演变已改变了人类计算机的相互作用（HCI），但是与LLMS的相互作用当前主要集中在基于文本的交互上，而其他多模型方法的互动仍未得到解释。本文介绍了VTUTOR，这是一种开源软件开发套件（SDK），将生成性AI与先进的动画技术相结合，以创建人类Multi-Media相互作用的引人入胜，适应性和现实的APA。 VTUTOR利用LLMS进行实时个性化反馈，高级唇部同步进行自然 ...

0 0 0 2025/03/28 arXiv:2502.04103v2 snowball925

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）