实时语义分段提出了设计有效的体系结构的双重挑战,这些架构捕获了大型接受领域的语义理解,同时还可以完善详细的轮廓。 Vision Transformers有效地模拟了远程依赖性,但会产生高计算成本。为了应对这些挑战,我们介绍了较大的内核注意力(LKA)机制 ...
多年来,矢量嵌入的任务是不断增加的检索任务,并在将其用于推理,指导遵循,编码等的新生中增加。这些新的基准测试将嵌入到任何查询以及可以给出的任何相关性概念上工作。尽管先前的作品指出了向量嵌入的理论局限性,但人们普遍认为,这些困难仅是由于不切实际的查询而引起的,并且那些无法通过更好的训练数据和更大的模型来克服的困难 ...
近年来,视觉语言模型(VLM)在有效整合和处理文本和视觉信息的能力上获得了很大的突出。在各种应用程序(例如场景感知和机器人技术)中,这种集成显着提高了性能。但是,VLM的部署也引起了关键的安全和安全问题,需要进行广泛的研究来评估这些VLM系统可能带来的潜在脆弱性 ...
这项工作探讨了大语言模型(LLMS)中的顺序模型编辑,这是一项关键任务,涉及通过多轮编辑不断修改LLMS中的内部知识,每次都结合了更新或更正以调整模型输出而无需昂贵的再培训。现有的模型编辑方法,尤其是那些改变模型参数的方法,通常集中在单轮编辑上,并且在顺序模型编辑中通常面临重大挑战,其中尤其是模型遗忘和失败的问题。为了应对这些挑战,我们引入了一种新的模型编辑方法,即\ textbf {n} eur ...
视觉和语言导航(VLN)任务要求代理遵循文本说明以浏览3D环境。传统方法使用监督的学习方法,严重依赖于特定领域的数据集来培训VLN模型。最近的方法试图利用封闭源的大型语言模型(LLM)(例如GPT-4)以零拍的方式解决VLN任务,但面临与现实世界中昂贵的 Token 成本和潜在数据泄露有关的挑战 ...
可靠的3D对象感知对于自主驾驶至关重要。由于其在所有天气条件下的传感能力,4D雷达最近受到了很多关注。但是,与LIDAR相比,4D雷达提供了更少的点云 ...
随着深度神经网络(DNN)的快速发展,许多现实世界应用程序采用多种模型来执行复合任务,例如自动驾驶汽车上的共同进行分类,检测和分割模型。这样的多租户DNN推断案例极大地加剧了计算复杂性,并要求为图形级操作员调度,运行时级资源意识以及硬件调度程序支持提供全面的协作。但是,此类多租户推断的当前调度支持仍然相对落后 ...
遗憾是最近在收入最大化拍卖的自动化设计方面的突破。它将深度学习的灵活性与基于遗憾的方法相结合,以放宽激励兼容性(IC)约束(参与者更喜欢以真实的竞标)以近似最佳拍卖。我们提出了遗憾的两个独立改进 ...