强大的基于WiFi的人类姿势估计是一项具有挑战性的任务,将离散和微妙的WiFi信号桥接到人类骨架上。本文重新讨论了这个问题,并揭示了两个关键但被忽视的问题:1)跨域间隙,即 ...
近年来,由于深度学习的快速发展,神经网络在电子商务推荐系统中得到了广泛的应用。我们将推荐系统形式化为顺序推荐问题,旨在预测用户可能与之交互的下一个项目。最近的工作通常给出用户行为序列的整体嵌入... ...
最近的工作提出了一种系统评估“情境语言理解智能体”的方法 ...
测试时间计算已经授权多模式大型语言模型生成扩展的推理链,从而在诸如多模式数学推理等任务上产生了强大的性能。但是,这种提高的推理能力通常会增加幻觉:随着世代的变长,模型往往会偏离图像的内容,并更加依赖语言先验。注意分析表明,较长的推理链导致对视觉输入的关注减少,这导致了幻觉 ...
在计算机视觉中,多标签识别是许多现实应用程序的重要任务,但是对以前看不见的标签进行分类仍然是一个重大挑战。在本文中,我们提出了一种新颖的算法,对齐双模态分类器(ADDS),其中包括一个双模式解码器(DM-DECODER),可在视觉和文本特征之间对齐,用于开放式唱歌式多型多标签分类任务。然后,我们设计了一种简单但有效的方法,称为金字塔 - 福音,以提高分辨率高的输入的性能 ...
学习高质量的文本表示是多种NLP任务的基础。尽管传统上审计编码器审计依赖于蒙版的语言建模(MLM),但最近的证据表明,用因果语言建模(CLM)预测的解码器模型可以有效地重新陈述为编码器,通常超过文本表示上的传统编码器。但是,尚不清楚这些收益是反映了CLM目标的固有优势还是由模型和数据量表等混杂因素产生 ...
推理时间计算技术(类似于人类系统2思维)最近在改善模型性能方面变得流行。但是,大多数现有的方法都有几个局限性:它们是特定于方式的(例如, ...
端到端的自主驾驶已大大提高,与传统管道相比,在开环和闭环设置中提供了诸如系统简单性和更强的驾驶性能。但是,现有的框架在闭环评估中仍然患有较低的成功率,突出了它们在现实部署中的局限性。在本文中,我们介绍了X-Driver,X-Driver是一种统一的多模式大型语言模型(MLLMS)框架,旨在闭环自动驾驶,利用思想链(COT)和自回旋建模,以增强感知和决策 ...