基于扩散的大语言模型(扩散LLM)已显示出具有并行解码功能的非自动回归文本生成的希望。但是,由于缺乏键值(KV)缓存和质量降解,开源扩散LLM的实际推理速度通常会落后于自回归模型。为了弥合这一差距,我们引入了一种针对双向扩散模型量身定制的新颖的块近似KV缓存机制,从而使缓存可重复使用,而性能降低可忽略不计 ...
我们提出了PlainMamba:一个简单的非层次状态空间模型(SSM),专为一般视觉识别而设计。最近的Mamba模型已经显示了SSM如何在顺序数据上与其他体系结构高度竞争,并且已经尝试将其应用于图像。 In this paper, we further adapt the selective scanning process of Mamba to the visual domain, enhan ...
多模态基础模型和生成人工智能在各个领域的应用中都展现出了有前景的能力。最近,视觉-语言-动作(VLA)模型因其在推进机器人操作方面的潜力而引起了广泛关注。尽管 VLA 模型提供了端到端的感知控制回路,但人们对此类模型的功能缺乏全面的了解,也缺乏自动化测试平台来揭示它们在不同机器人操作场景中的稳健性和可靠性 ...
语言模型已经超出了我们有效评估它们的能力,但为了它们未来的发展,研究它们能力的前沿是至关重要的。我们认为现实世界的软件工程是评估下一代语言模型的丰富、可持续且具有挑战性的测试平台。因此,我们引入了 SWE-bench,这是一个评估框架,包括从真实 GitHub 问题中提取的 2,294 美元软件工程问题以及跨 12 美元流行 Python 存储库的相应拉取请求 ...
集成的传感和通信(ISAC)使无线电系统能够同时感知并与其环境进行通信。本文在由欧盟资助的HEXA-X-II项目中开发的,对ISAC在6G网络中提出了全面的跨层愿景,整合了物理层设计,硬件体系结构,AI-DRINGIND INTELLICES和协议级创新的见解。我们首先重新审视ISAC的基本原理,强调在不同整合层面的传感和交流之间的协同作用和权衡 ...
文本到语音(TTS)基准通常无法捕获模型如何处理细微差别和语义复杂文本。在$ \ textit {equarkentts} $上建立,我们介绍了$ \ textit {equarkenttts-eval} $,这是一个全面的基准,涵盖了六个具有挑战性的TTS方案:情感,副语言学,外语,义务复杂性,复杂发音,复杂的发音(例如 ...
随着现代微服务系统的发展越来越流行且越来越复杂,包括数百甚至数千个细粒度,相互依存的组件,它们变得越来越容易受到频繁和微妙的失败的影响。因此,确保系统可靠性取决于准确有效的故障定位。基于小型模型的传统故障定位方法缺乏适应各种故障场景的灵活性,而最近的基于LLM的方法则具有两个主要局限性:它们通常依赖于严格的调用工作流程,这些工作流程限制了该模型动态探索最佳定位路径的能力,并且它们需要资源密集型的推 ...
具有扩散模型的生成图像合成最近已在基于文本或类的图像合成等多个任务中实现了出色的视觉质量。这些成功的很大程度上是由于在培训这些模型中投入的计算能力急剧提高。这项工作提出了一种替代方法:灵感来自于其在自然语言处理中的成功应用,我们建议通过基于检索的方法补充扩散模型,并以外部数据库的形式引入明确的内存 ...