单眼深度估计涉及从单个RGB图像预测深度,并在诸如自主驾驶,机器人导航,3D重建等应用中起着至关重要的作用。基于学习的方法的最新进步显着改善了深度估计性的性能。生成模型,尤其是稳定的扩散,已经在通过各种数据集的大规模培训来恢复细节和重建缺失区域方面表现出巨大的潜力 ...
面向任务的对话(TOD)系统可以通过自然语言互动来帮助用户完成任务,通常依靠单层的工作流结构来进行公共任务(例如酒店预订)的插槽。但是,在涉及特定领域知识的企业环境中,由于任务复杂性和缺乏标准化的文档,TOD系统面临挑战。在这项工作中,我们介绍了由层次目标驱动的企业TOD系统Hiertod,并可以支持复合工作流程 ...
即将进行的基于CXL的分解内存设备具有特殊用途单元,可将计算计算到近序列。在本文中,我们探讨了将计算到通用核心核心核心的机会,从而实现了更大的效用和卸载的多样性。我们研究了两类流行的内存密集型应用程序:ML推理和向量数据库作为计算卸载的候选者 ...
视觉和语言(VL)模型提供了一种有效的方法来对齐图像和文本的表示空间,从而导致众多应用,例如跨模式检索,视觉询问回答,字幕等。但是,所有流行的VL模型所学到的校准图像文本空间仍在遭受所谓的“对象偏见”的困扰 - 它们的表示形式为“名词袋”,大多忽略或缩小了所描述的属性,关系和状态所描述的属性和状态/图像中所描述的对象的状态。尽管最近的文献提出了一些重大尝试解决这些“组成推理”问题的尝试,但该问题仍 ...
Compute eXpress Link (CXL) 是一种新兴的有前景的内存接口技术。由于 CXL 设备普遍不可用,CXL 存储器的性能很大程度上未知。 CXL 内存有哪些用例? CXL 内存对应用程序性能有何影响?如何将CXL内存与现有内存组件结合使用?在这项工作中,我们研究了来自不同供应商的三种正品 CXL 内存扩展卡的性能 ...
随着 LLM 的不断发展,迫切需要一种值得信赖的评估方法,能够及时提供可靠的评估结果。目前,由于静态基准容易出现污染问题,用户倾向于信任人工投票平台,例如 Chatbot Arena。然而,人工注释需要大量的手动工作 ...
融合来自不同传感器的多模式输入是提高3D对象检测性能的有效方法。但是,当前的方法忽略了两个重要的冲突:点像素错位和子任务抑制。前者意味着来自不透明对象的像素特征被投影到世界空间中同一射线的多个点特征,而后者表示分类预测和边界框回归可能会导致相互抑制 ...
对于机器人车辆在行人丰富的环境中安全有效地导航,建模微妙的人类行为和导航规则(例如,通过右侧)很重要 ...