视觉问题回答(VQA)专注于通过利用图像中的信息来提供自然语言问题的答案。尽管GPT-4O等尖端的多模式大型语言模型(MLLM)在VQA任务上实现了强劲的性能,但它们在访问域特异性或最新知识方面经常缺乏。为了减轻此问题,检索型发电(RAG)利用外部知识库(KBS)(称为KB-VQA)是一种有希望的方法 ...
这项研究的目的是解决用户设备(UE)通过在UE侧实施流体天线(FA)所面临的移动性挑战。 This approach aims to maintain the time-varying channel in a relatively stable state by strategically relocating the FA to an appropriate port.据我们所知,本文首次介绍 ...
本文介绍了 MCTrack,这是一种新的 3D 多目标跟踪方法,该方法在 KITTI、nuScenes 和 Waymo 数据集上实现了最先进的 (SOTA) 性能。为了解决现有跟踪范例中的差距(通常在特定数据集上表现良好但缺乏通用性),MCTrack 提供了统一的解决方案。此外,我们还标准化了各种数据集的感知结果格式,称为 BaseVersion,方便多目标跟踪 (MOT) 领域的研究人员专注于核 ...
最近,DeepSeek R1证明了如何通过简单的基于规则的激励措施进行强化学习可以使大型语言模型中复杂推理的自主发展,其特征是“ AHA时刻”,在该模型中,该模型在训练过程中表现出自我反省和增加的响应长度。但是,将这一成功扩展到多模式推理的尝试通常未能重现这些关键特征。在本报告中,我们介绍了仅在非SFT 2B模型上进行多模式推理的这些新兴特征的首次成功复制 ...
对话中的情绪识别(ERC)是一项预测对话上下文中话语情绪的任务。它紧密依赖于对话上下文、说话者身份信息、多方对话场景等。然而,最先进的方法(instructERC)仅识别说话者,而忽略了常识知识(即说话人) ...
我们提出了VGGT,这是一个馈送前向神经网络,它直接渗透了场景的所有关键3D属性,包括相机参数,点地图,深度地图和3D点轨道,从一个,几个或数百个视图中。这种方法是在3D计算机视觉中向前迈出的一步,其中模型通常被限制为单个任务并专门针对单个任务。它也是简单有效的,在一秒钟内重建图像,并且仍然超过需要使用视觉几何优化技术进行后处理的替代方案 ...
长期以来,图像字幕一直是视觉理解中的关键任务,视觉模型(VLM)的最新进展显着增强了生成详细的图像标题的能力。然而,由于过时的评估指标和粗略注释,对详细图像字幕的评估仍未被忽视。在本文中,我们介绍了Decapbench以及一种新颖的指标DCSCORE,专门设计用于详细的字幕任务 ...
大型语言模型(LLM)已彻底改变了基于自然语言处理(NLP)的应用程序,包括自动化文本生成,问答,聊天机器人等。但是,他们面临着一个重大的挑战:幻觉,模型产生了合理的听起来但实际上不正确的反应。这破坏了信任并限制了LLM在不同域中的适用性 ...