我们提出了第一个可以查询以查找数据集中最接近的邻居的sublinear内存草图。我们的在线素描算法将n元素数据集压缩到$ o(n^b \ log^3 n)$ o(n^{(b+1)} \ log^3 n)$ time中的大小$ o(n^b \ log^3 n)$的草图。该草图可以正确地报告满足由$ b $参数的稳定性条件的任何查询的最近的邻居 ...
大型语言模型在扩展参数时表现出了有希望的功能。但是,为大型语言模型提供大规模的计算和记忆运动成本。已采用量化方法来降低服务成本和延迟 ...
语言模型预训练已被证明可以捕获大量的世界知识,这对于问答等nlp任务至关重要。然而,这些知识隐式存储在神经网络的参数中,需要更大的网络来覆盖更多事实。,我们使用潜在知识检索器来增强语言模型预训练,该检索器允许模型检索和关注维基百科等大型语料库中的文档,这些文档在预训练、精细训练期间使用。调整和推理 ... ...
关于大语言模型(LLM)推理能力的最新研究表明,通过利用冗长的思维过程和推断期间的其他计算资源,主要是在涉及数学推理的任务(Muennighighoff等人,2025年)。但是,仍然不确定较长的推理链是否固有地提高了事实准确性,尤其是在数学环境之外 ...
语义场景的理解对于机器人和计算机视觉应用至关重要。在自动驾驶中,3D语义分割在实现安全导航方面起着重要作用。尽管该领域取得了重大进展,但收集和注释3D数据的复杂性是这一发展的瓶颈 ...
课堂开发学习(CIL)使模型能够在保留以前的课程的同时不断学习新的课堂知识,从而促进了动态,现实世界中的适应和演变。传统的CIL方法主要依赖于视觉特征,这在复杂的多模式场景中限制了它们的有效性。相比之下,VLM通过利用预训练的知识并整合多模式语义提示(例如文本和视觉),显示出有希望增强CIL的潜力 ...
我们介绍了慢速速度 - llava-1.5(缩写为sf-llava-1.5),这是一个视频大型语言模型(LLMS)家族,提供有效的解决方案,以进行长篇视频理解 ...
这项工作介绍了SA2VA,这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同,SA2VA支持广泛的图像和视频任务,包括参考细分和对话,并以最少的单次指令调整调整。 SA2VA结合了SAM-2(基础视频细分模型)与Llava(一个先进的视觉语言模型)结合在一起,将文本,图像和视频统一为共享的LLM Token 空间 ...