导航研究中的一个难以捉摸的目标是建立一个智能代理,该智能代理可以理解包括自然语言和图像在内的多模式说明,并执行有用的导航。为了实现这一目标,我们研究了带有示范旅行(MINT)的多模式指令导航的广泛有用的导航任务类别,其中通过先前记录的演示视频提供了先验的环境。视觉语言模型(VLM)的最新进展在实现这一目标方面表现出了有希望的途径,因为它展示了感知和推理多模式输入的能力 ...
0 0 0 2025/06/02 arXiv:2407.07775v2 kkkk
基于扩散的大语言模型(扩散LLM)已显示出具有并行解码功能的非自动回归文本生成的希望。但是,由于缺乏键值(KV)缓存和质量降解,开源扩散LLM的实际推理速度通常会落后于自回归模型。为了弥合这一差距,我们引入了一种针对双向扩散模型量身定制的新颖的块近似KV缓存机制,从而使缓存可重复使用,而性能降低可忽略不计 ...
0 0 0 2025/06/02 arXiv:2505.22618v1 YONG
我们提出了PlainMamba:一个简单的非层次状态空间模型(SSM),专为一般视觉识别而设计。最近的Mamba模型已经显示了SSM如何在顺序数据上与其他体系结构高度竞争,并且已经尝试将其应用于图像。 In this paper, we further adapt the selective scanning process of Mamba to the visual domain, enhan ...
0 0 0 2025/06/02 arXiv:2403.17695v2 澹台心木
多模态基础模型和生成人工智能在各个领域的应用中都展现出了有前景的能力。最近,视觉-语言-动作(VLA)模型因其在推进机器人操作方面的潜力而引起了广泛关注。尽管 VLA 模型提供了端到端的感知控制回路,但人们对此类模型的功能缺乏全面的了解,也缺乏自动化测试平台来揭示它们在不同机器人操作场景中的稳健性和可靠性 ...
0 0 0 2025/06/02 arXiv:2409.12894v2 kkkk
语言模型已经超出了我们有效评估它们的能力,但为了它们未来的发展,研究它们能力的前沿是至关重要的。我们认为现实世界的软件工程是评估下一代语言模型的丰富、可持续且具有挑战性的测试平台。因此,我们引入了 SWE-bench,这是一个评估框架,包括从真实 GitHub 问题中提取的 2,294 美元软件工程问题以及跨 12 美元流行 Python 存储库的相应拉取请求 ...
0 0 0 2025/06/02 arXiv:2310.06770v3 yexxok
集成的传感和通信(ISAC)使无线电系统能够同时感知并与其环境进行通信。本文在由欧盟资助的HEXA-X-II项目中开发的,对ISAC在6G网络中提出了全面的跨层愿景,整合了物理层设计,硬件体系结构,AI-DRINGIND INTELLICES和协议级创新的见解。我们首先重新审视ISAC的基本原理,强调在不同整合层面的传感和交流之间的协同作用和权衡 ...
0 0 0 2025/06/02 arXiv:2505.10933v1 YONG
文本到语音(TTS)基准通常无法捕获模型如何处理细微差别和语义复杂文本。在$ \ textit {equarkentts} $上建立,我们介绍了$ \ textit {equarkenttts-eval} $,这是一个全面的基准,涵盖了六个具有挑战性的TTS方案:情感,副语言学,外语,义务复杂性,复杂发音,复杂的发音(例如 ...
0 0 0 2025/06/02 arXiv:2505.23009v1 Du
随着现代微服务系统的发展越来越流行且越来越复杂,包括数百甚至数千个细粒度,相互依存的组件,它们变得越来越容易受到频繁和微妙的失败的影响。因此,确保系统可靠性取决于准确有效的故障定位。基于小型模型的传统故障定位方法缺乏适应各种故障场景的灵活性,而最近的基于LLM的方法则具有两个主要局限性:它们通常依赖于严格的调用工作流程,这些工作流程限制了该模型动态探索最佳定位路径的能力,并且它们需要资源密集型的推 ...
0 0 0 2025/06/02 arXiv:2504.18776v1 jueli

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)