大型视觉模型(VLM)已扩展以了解图像和视频。视觉 Token 压缩被利用以减少可观的视觉输入长度。为了满足不同任务的需求,现有的高性能模型通常使用不同的 Token 压缩策略分别处理图像和视频,从而限制了组合图像和视频的功能 ...
已经提出了 Token 过滤,以通过在训练过程中消除无关紧要的 Token 来增强大语模型(LLM)的实用性。虽然使用较少的 Token 应减少计算工作量,但现有研究并未成功实现更高的效率。这主要是由于仅在输出层中过滤 Token 以及效率低下的稀疏GEMM(一般矩阵乘法)引起的稀疏性不足,即使在足够的稀疏度的情况下也是如此 ...
神经网络修剪和量化技术几乎与神经网络本身一样古老。但是,迄今为止仅发布了两者之间的临时比较。在本文中,我们着手回答哪个更好的问题:神经网络量化或修剪?通过回答这个问题,我们希望为未来的神经网络硬件做出的设计决策提供信息 ...
大型黑盒模型在众多应用中已变得无处不在。了解单个培训数据源对这些模型预测的影响对于提高其可信度至关重要。当前的影响估计技术涉及每个训练点的计算梯度或对不同子集的重复培训 ...
最近,大型语言模型(LLM)在上下文学习(ICL)的帮助下展示了处理新任务的令人印象深刻的能力。在大视觉语言模型(LVLM)的研究中,在实现 ICL 时,研究人员通常采用简单的策略,例如跨不同样本的固定演示,或直接通过视觉语言嵌入模型选择演示。这些方法不能保证配置的演示符合 LVLM 的需要 ...