即时学习已被广泛采用来有效地适应视觉语言模型(VLM),例如CLIP,用于少量图像分类 ...
能够在计算机上执行一般任务的代理可以通过自动重复任务并协助解决复杂的问题解决,可以提高效率和生产率。理想情况下,这样的代理应该能够通过自然语言命令来解决向他们介绍的新计算机任务。但是,以前解决此问题的方法需要大量的专家演示和特定于任务的奖励功能,这两者对于新任务都是不切实际的 ...
最近,基于矩阵正交化的MUON优化器在训练小规模的语言模型中表现出了强劲的结果,但是尚未证明对大型模型的可扩展性。我们确定了两种至关重要的技术来扩展MUON:(1)增加重量衰减,(2)仔细调整参数更新量表。这些技术使MUON可以在大规模培训的情况下开箱即用,而无需进行超参数调整 ...
无监督的连续异常检测(UCAD)在多任务表示学习中面临重大挑战,现有的方法患有不完整的表示和灾难性的遗忘。与监督的模型不同,无监督的场景缺乏先前的信息,因此难以有效区分冗余和互补的多模式特征。为了解决这个问题,我们通过两项关键技术创新提出了多模式任务表示内存库(MTRMB)方法:一种关键 - 促进型 - multimodal知识(KPMK)机制,该机制使用简洁的关键提示来指导Bert和Vit之间 ...
多模式的大型语言模型(MLLM),例如GPT-4O,Gemini,Llava和Flamingo,在整合视觉和文本方式上取得了重大进展,在视觉问题答案(VQA),图像字幕上和内容检索等任务中取得了卓越的进步。它们可以生成图像的连贯和上下文相关的描述。但是,他们在准确识别和计算对象并确定其空间位置时仍然面临挑战,尤其是在复杂的场景中,重叠或小物体 ...
我们提出了一个能够同时分割,识别和字幕的统一,迅速的模型。与SAM不同,我们的目标是通过视觉提示在野外建立多功能区域表示。为此,我们从具有50亿个参数的预训练夹模型中训练具有大量分割掩码,\ EG,SA-1B掩码和语义先验的可推广模型 ...
我们介绍了Llava-Mod,这是一个新颖的框架,旨在通过将知识从大型MLLM(L-MLLM)提炼出来,以实现小规模多模式模型(S-MLLM)的有效培训。我们的方法解决了MLLM蒸馏中的两个基本挑战。首先,我们通过将专家(MOE)体系结构的稀疏混合物(MOE)结构集成到语言模型中,在计算效率和模型表现力之间取得平衡来优化S-MLLM的网络结构 ...
尽管智能合约涉及高股份,但它们通常以未经纪律的方式开发,从而使区块链交易的安全性和可靠性处于危险之中。在本文中,我们介绍了Contramaster:针对智能合约的Oracle支持的动态利用生成框架。现有方法仅突变单一交易; Contramaster通过突变交易序列超过了这些 ...