视觉语言导航(VLN)是机器人系统中的一个基本挑战,在现实世界环境中部署了体现代理的广泛应用。尽管最近进步,但现有方法在远程空间推理方面受到限制,通常表现出较低的成功率和高推断潜伏期,尤其是在远程导航任务中。为了解决这些限制,我们提出了FSR-VLN,这是一种视觉语言导航系统,将分层多模式场景图(HMSG)与快速降低的导航推理(FSR)结合在一起 ...
我们推出了 ALTO,一种网络编排器,用于高效服务复合 AI 系统,例如语言模型管道。 ALTO 通过利用特定于生成语言模型的优化机会:流式中间输出来实现高吞吐量和低延迟。当语言模型逐个生成输出时,ALTO 提供了在可能的情况下在阶段之间传输中间输出的机会 ...
我们介绍了PhysMotion,这是一个新型框架,利用基于物理的模拟来指导从单个图像和输入条件(例如,施加力和扭矩)产生的中间3D表示,产生高质量的,物理上合理的视频生成 ...
基于条件的随机场(CRF)神经模型是解决序列标记问题的最性能方法之一。尽管取得了巨大的成功,但CRF还是有时会产生标签的非法序列的缺点,例如 ...
基于预训练的基于模型的漏洞检测方法的出现已显着推动了自动化漏洞检测的领域。但是,这些方法仍然面临几个挑战,例如学习有效的陈述特征表示,以进行细粒度的预测和努力处理过长的代码序列。为了解决这些问题,这项研究介绍了StageDvulbert,这是一种新型的脆弱性检测框架,利用预先训练的代码语言模型并采用粗到精细的策略 ...
大型语言模型(LLM)表现出了显着的功能,但确保其输出符合严格的结构或语法约束仍然具有挑战性,这对于功能呼叫和特定于领域的语言(DSL)的生成至关重要。通过无上下文语法的约束解码是一种灵活的方法,可以通过动态构建 Token logits掩码来确保LLMS遵守特定格式的依从性。但是,创建此面膜需要在每个解码步骤中检查LLM词汇中所有 Token 的有效性,这通常会在现有受约束的解码引擎中产生大量的 ...
作为智能驾驶系统的感知结果的一部分,3D空间中的静态对象检测(SOD)为驱动环境理解提供了关键的提示。随着深层神经网络用于草皮任务的快速部署,对高质量培训样本的需求飙升。传统的,也可靠的方式是在密集的激光雷德点云和参考图像上手动标记 ...
近年来,AI生成的视频(AIGV)技术的开发非常出色,这大大改变了视频内容的范式。但是,AIGV仍然患有明显的视觉质量缺陷,例如噪声,模糊,框架抖动和低动态程度,这严重影响了用户的观看体验。因此,有效的自动视觉质量评估对于AIGV内容调节和生成模型改进至关重要 ...