有条件的图像产生因其个性化内容的能力而引起了极大的关注。但是,该领域在开发任务不合时宜,可靠且可解释的评估指标方面面临挑战。本文介绍了Cigeval,这是一个统一的代理框架,用于全面评估有条件的图像生成任务 ...
0 0 0 2025/05/13 arXiv:2504.07046v1 Lewandofski
自动GUI代理旨在通过在数字环境(例如Web,Mobile,台式设备)中自动执行复杂的任务来促进用户交互。它接收文本任务指令和GUI描述以生成可执行的操作(\ emph {例如 ...
0 0 0 2025/05/12 arXiv:2505.00416v1 bage
语言模型 (LM) 理解自然语言的能力使其成为将人类指令解析为自主机器人任务计划的强大工具。与依赖特定领域知识和手工规则的传统规划方法不同,语言模型从不同的数据中进行概括,并以最小的调整适应各种任务,充当压缩的知识库。然而,标准形式的语言模型面临着长期任务的挑战,特别是在部分可观察的多智能体环境中 ...
0 0 0 2025/05/12 arXiv:2407.10031v2 zhlstone
体现人工智能(体现的AI)在智能时代的高级技术的应用中起着关键作用,在智能时代,AI系统与物体集成在一起,使他们能够感知,理性和与环境相互作用。通过将传感器用于输入和执行器进行操作,这些系统可以根据现实世界的反馈来学习和适应,从而使它们可以在动态和不可预测的环境中有效地执行任务。随着深度学习(DL),增强学习(RL)和大型语言模型(LLMS)成熟的技术,体现的AI已成为学术界和行业的主要领域,其应 ...
0 0 0 2025/05/12 arXiv:2505.05108v1 attention2
随着大型语言模型 (LLM) 的出现,医学诊断领域发生了重大转变,但这些模型中的可解释性挑战在很大程度上仍未得到解决。本研究引入了诊断链(CoD)来增强基于 LLM 的医学诊断的可解释性。 CoD 将诊断过程转变为反映医生思维过程的诊断链,提供透明的推理路径 ...
0 0 0 2025/05/12 arXiv:2407.13301v2 王德发
移动设备使用的快速增加需要改善无缝任务管理的自动化。但是,由于运营知识不足,许多AI驱动的框架挣扎。手动书面知识有助于劳动密集型和效率低下 ...
0 0 0 2025/05/10 arXiv:2502.17110v2 momoom
由多模式大型语言模型(MLLM)驱动的图形用户界面(GUI)代理已经成为一种有希望的范式,可实现与数字系统的智能互动。本文提供了一个结构化的摘要,内容涉及GUI代理的最新进展,重点是增强学习(RL)增强的体系结构。我们首先将GUI代理任务形式化为马尔可夫决策过程,并讨论典型的执行环境和评估指标 ...
0 0 0 2025/05/10 arXiv:2504.20464v1 momoom
分析非结构化数据一直是数据处理中的持续挑战。大型语言模型(LLMS)在这方面表现出了希望,这导致了有关LLM驱动的非结构化数据处理的最新建议。但是,这些框架专注于在使用LLMS执行用户指定的操作时降低成本,而不是提高准确性,执行大多数操作AS-IS(在单个LLM呼叫中) ...
0 0 0 2025/05/09 arXiv:2410.12189v3 zhangxinhao

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)