强大的基于WiFi的人类姿势估计是一项具有挑战性的任务,将离散和微妙的WiFi信号桥接到人类骨架上。本文重新讨论了这个问题,并揭示了两个关键但被忽视的问题:1)跨域间隙,即 ...
0 0 0 2025/07/09 arXiv:2501.09411v2 annseongjin
近年来,由于深度学习的快速发展,神经网络在电子商务推荐系统中得到了广泛的应用。我们将推荐系统形式化为顺序推荐问题,旨在预测用户可能与之交互的下一个项目。最近的工作通常给出用户行为序列的整体嵌入... ...
0 1 0 2025/07/09 arXiv:2005.09347v2 fc
最近的工作提出了一种系统评估“情境语言理解智能体”的方法 ...
0 0 0 2025/07/09 arXiv:2305.13455v3 chendl
测试时间计算已经授权多模式大型语言模型生成扩展的推理链,从而在诸如多模式数学推理等任务上产生了强大的性能。但是,这种提高的推理能力通常会增加幻觉:随着世代的变长,模型往往会偏离图像的内容,并更加依赖语言先验。注意分析表明,较长的推理链导致对视觉输入的关注减少,这导致了幻觉 ...
0 0 0 2025/07/09 arXiv:2505.21523v3 iris
在计算机视觉中,多标签识别是许多现实应用程序的重要任务,但是对以前看不见的标签进行分类仍然是一个重大挑战。在本文中,我们提出了一种新颖的算法,对齐双模态分类器(ADDS),其中包括一个双模式解码器(DM-DECODER),可在视觉和文本特征之间对齐,用于开放式唱歌式多型多标签分类任务。然后,我们设计了一种简单但有效的方法,称为金字塔 - 福音,以提高分辨率高的输入的性能 ...
0 0 0 2025/07/08 arXiv:2208.09562v2 zzy15280
学习高质量的文本表示是多种NLP任务的基础。尽管传统上审计编码器审计依赖于蒙版的语言建模(MLM),但最近的证据表明,用因果语言建模(CLM)预测的解码器模型可以有效地重新陈述为编码器,通常超过文本表示上的传统编码器。但是,尚不清楚这些收益是反映了CLM目标的固有优势还是由模型和数据量表等混杂因素产生 ...
0 0 0 2025/07/08 arXiv:2507.00994v2 arxiv
推理时间计算技术(类似于人类系统2思维)最近在改善模型性能方面变得流行。但是,大多数现有的方法都有几个局限性:它们是特定于方式的(例如, ...
0 0 0 2025/07/08 arXiv:2507.02092v1 KingXHJ
端到端的自主驾驶已大大提高,与传统管道相比,在开环和闭环设置中提供了诸如系统简单性和更强的驾驶性能。但是,现有的框架在闭环评估中仍然患有较低的成功率,突出了它们在现实部署中的局限性。在本文中,我们介绍了X-Driver,X-Driver是一种统一的多模式大型语言模型(MLLMS)框架,旨在闭环自动驾驶,利用思想链(COT)和自回旋建模,以增强感知和决策 ...
0 0 0 2025/07/08 arXiv:2505.05098v2 15623473941

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)