由于视觉信息表示所需的大量参数和额外输入标记,多模态大语言模型 (MLLM) 需要大量计算来进行推理。在此,我们介绍 Visual Tokens Withdrawal (VTW),这是一个即插即用的模块,可增强 MLLM 的快速推理能力。我们的方法受到我们观察到的两个有趣现象的启发:(1)LLM 中普遍存在的注意力集中现象在 MLLM 中也持续存在,这表明初始标记和最近的标记受到大多数关注,而中间 ...
我们介绍了Sundial,这是一个由本机,灵活且可扩展的时间序列粉底型模型的家庭。为了预测下一步的分布,我们提出了基于流量匹配的时间流损失,该时间流损失促进了变形金刚在时间序列上的天然预训练而无需离散 Token 化。以任意长度的时间序列为条件,我们的模型是预先训练的,而无需指定任何先前的分布,并且可以生成多个可能的预测,从而超过使用参数密度的表示表示灵活性 ...
大型视觉模型(LVLM)在许多下游任务中表现出出色的表现。但是,LVLM在大规模数据集上进行了培训,如果培训图像包含敏感信息,则可能会构成隐私风险。因此,重要的是要检测是否使用图像来训练LVLM ...
大型语言模型(LLMS)中的记忆使它们容易受到数据提取攻击的影响。虽然对训练的记忆进行了广泛的研究,但较少的作品探索了其在微调中的影响,尤其是对于洛拉微调,这是一种广泛采用的参数有效方法。在这项工作中,我们在微调中重新检查了记忆,并发现了与不同微调策略的先前发现的令人惊讶的分歧 ...
语言模型(LMS)通常遵守“预训练和微调”范式,在该范式上可以微调通用的预训练模型以迎合各种专业领域。低级适应性(LORA)由于其轻巧的计算成本和出色的性能,在LM微调中获得了最广泛的用途。由于洛拉(Lora)调谐的参数的比例相对较小,因此可能会有一种误导的印象,即Lora微调数据对会员推理攻击(MIAS)无力 ...
会员推理攻击(MIAS)构成了显着的隐私风险,因为它们使对手能够确定模型的培训数据集中是否包含特定的数据点。虽然机器未学习的主要目的是作为隐私机制设计,可以从机器学习模型中有效地删除私人数据而无需进行完全重新培训,但其对模型对MIA的敏感性的影响仍然是一个空旷的问题。在这项研究中,我们在应用最先进的机器学习算法后系统地评估了模型对MIA的脆弱性 ...
作为最经典的深度学习技术之一,Transformer架构赋能了大规模先进模型,尤其是包含存储亿参数的大型语言模型(LLM),成为深度学习的基石。虽然取得了令人惊叹的成就,Transformers 仍然面临着固有的局限性,特别是注意力计算的二次计算复杂性导致的运行推理。最近,一种名为 Mamba 的新颖架构从经典状态空间模型 (SSM) 中汲取灵感,已成为构建基础模型的有前景的替代方案,提供与 Tr ...
在过去的几年中,深度多机构增强学习(RL)已成为一个高度活跃的研究领域。在这一领域,一个特别具有挑战性的问题是部分可观察到的,合作,多机构学习,其中的代理团队必须学会协调其行为,同时仅根据其私人观察来进行调节。这是一个有吸引力的研究领域,因为此类问题与大量现实世界系统有关,并且比一般性和综合问题更适合评估 ...