多模态基础模型和生成人工智能在各个领域的应用中都展现出了有前景的能力。最近,视觉-语言-动作(VLA)模型因其在推进机器人操作方面的潜力而引起了广泛关注。尽管 VLA 模型提供了端到端的感知控制回路,但人们对此类模型的功能缺乏全面的了解,也缺乏自动化测试平台来揭示它们在不同机器人操作场景中的稳健性和可靠性 ...
0 0 0 2025/06/02 arXiv:2409.12894v2 kkkk
语言模型已经超出了我们有效评估它们的能力,但为了它们未来的发展,研究它们能力的前沿是至关重要的。我们认为现实世界的软件工程是评估下一代语言模型的丰富、可持续且具有挑战性的测试平台。因此,我们引入了 SWE-bench,这是一个评估框架,包括从真实 GitHub 问题中提取的 2,294 美元软件工程问题以及跨 12 美元流行 Python 存储库的相应拉取请求 ...
0 0 0 2025/06/02 arXiv:2310.06770v3 yexxok
集成的传感和通信(ISAC)使无线电系统能够同时感知并与其环境进行通信。本文在由欧盟资助的HEXA-X-II项目中开发的,对ISAC在6G网络中提出了全面的跨层愿景,整合了物理层设计,硬件体系结构,AI-DRINGIND INTELLICES和协议级创新的见解。我们首先重新审视ISAC的基本原理,强调在不同整合层面的传感和交流之间的协同作用和权衡 ...
0 0 0 2025/06/02 arXiv:2505.10933v1 YONG
文本到语音(TTS)基准通常无法捕获模型如何处理细微差别和语义复杂文本。在$ \ textit {equarkentts} $上建立,我们介绍了$ \ textit {equarkenttts-eval} $,这是一个全面的基准,涵盖了六个具有挑战性的TTS方案:情感,副语言学,外语,义务复杂性,复杂发音,复杂的发音(例如 ...
0 0 0 2025/06/02 arXiv:2505.23009v1 Du
随着现代微服务系统的发展越来越流行且越来越复杂,包括数百甚至数千个细粒度,相互依存的组件,它们变得越来越容易受到频繁和微妙的失败的影响。因此,确保系统可靠性取决于准确有效的故障定位。基于小型模型的传统故障定位方法缺乏适应各种故障场景的灵活性,而最近的基于LLM的方法则具有两个主要局限性:它们通常依赖于严格的调用工作流程,这些工作流程限制了该模型动态探索最佳定位路径的能力,并且它们需要资源密集型的推 ...
0 0 0 2025/06/02 arXiv:2504.18776v1 jueli
具有扩散模型的生成图像合成最近已在基于文本或类的图像合成等多个任务中实现了出色的视觉质量。这些成功的很大程度上是由于在培训这些模型中投入的计算能力急剧提高。这项工作提出了一种替代方法:灵感来自于其在自然语言处理中的成功应用,我们建议通过基于检索的方法补充扩散模型,并以外部数据库的形式引入明确的内存 ...
0 0 0 2025/06/02 arXiv:2204.11824v3 Donutn
我们提出了一个系统,该系统使一个自主的小型RC汽车能够使用增强学习(RL)从视觉观察中积极驱动。我们的系统Fastrlap(更快的圈)在没有人类干预的情况下自主训练,而无需任何模拟或专家演示。我们的系统集成了许多重要组件以使其成为可能:我们从其他环境(以低速)中导航的其他机器人的大型先验数据集初始化RL策略和值函数的表示形式,该数据提供了与导航相关的表示形式 ...
0 0 0 2025/06/02 arXiv:2304.09831v1 feitianyong
隐喻的想象力,即连接看似无关的概念的能力,是人类认知和交流的基础。尽管理解语言隐喻已经大大提高,但掌握了多模式的隐喻,例如在互联网模因中发现的隐喻,但由于其非常规的表达和隐含的含义,带来了独特的挑战。多模式隐喻识别的现有方法通常难以弥合字面和象征性解释之间的差距 ...
0 0 0 2025/06/02 arXiv:2505.11237v1 lllyyy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)