关于大语言模型(LLM)推理能力的最新研究表明,通过利用冗长的思维过程和推断期间的其他计算资源,主要是在涉及数学推理的任务(Muennighighoff等人,2025年)。但是,仍然不确定较长的推理链是否固有地提高了事实准确性,尤其是在数学环境之外 ...
语义场景的理解对于机器人和计算机视觉应用至关重要。在自动驾驶中,3D语义分割在实现安全导航方面起着重要作用。尽管该领域取得了重大进展,但收集和注释3D数据的复杂性是这一发展的瓶颈 ...
课堂开发学习(CIL)使模型能够在保留以前的课程的同时不断学习新的课堂知识,从而促进了动态,现实世界中的适应和演变。传统的CIL方法主要依赖于视觉特征,这在复杂的多模式场景中限制了它们的有效性。相比之下,VLM通过利用预训练的知识并整合多模式语义提示(例如文本和视觉),显示出有希望增强CIL的潜力 ...
我们介绍了慢速速度 - llava-1.5(缩写为sf-llava-1.5),这是一个视频大型语言模型(LLMS)家族,提供有效的解决方案,以进行长篇视频理解 ...
这项工作介绍了SA2VA,这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同,SA2VA支持广泛的图像和视频任务,包括参考细分和对话,并以最少的单次指令调整调整。 SA2VA结合了SAM-2(基础视频细分模型)与Llava(一个先进的视觉语言模型)结合在一起,将文本,图像和视频统一为共享的LLM Token 空间 ...
多变量时间序列中的异常检测具有挑战性,因为可能发生异质的次序异常。基于重建的方法的重点是学习频域中的正常模式以检测不同的异常子序列,但仍取得了令人鼓舞的结果,同时仍然缺乏捕获细粒频率特征和通道相关性的缺点。为了应对限制,我们介绍了基于频率修补的框架 ...
我们提出了一种新颖的对齐方式,以解决基于2D图像或文本产生一般3D形状的挑战性任务。直接学习从图像或文本到3D形状的条件生成模型,很容易与条件产生不一致的结果,因为3D形状具有额外的尺寸,其分布与2D图像和文本的分布明显不同。为了弥合三种模式之间的域间隙并促进了多模式条件的3D形状生成,我们探索代表形状图像 - 文本对齐的空间中的3D形状 ...
我们介绍了MMAR,这是一种新的基准测试,旨在评估大规模多学科任务中音频模型(ALM)的深层推理能力。 MMAR包括1,000个精心策划的音频问题 - 招标三重态,这些三重态从现实世界的互联网视频中收集,并通过迭代错误校正和质量检查进行了完善,以确保高质量。与限于声音,音乐或语音的特定领域的现有基准不同,MMAR将它们扩展到广泛的现实音频场景,包括声音,音乐和语音的混合模式组合 ...