在资源约束应用程序中采用视觉 Transformer (VIT)需要改善推理吞吐量。为此,已经提出了几种 Token 修剪和合并方法,通过依次减少 Token 数量来提高效率。但是,设计快速,保持高性能并适用于各种视觉任务的 Token 减少方法仍然是一个开放的问题 ...
当前用于 3D 形状的扩散或基于流的生成模型分为两种:提取预先训练的 2D 图像扩散模型,以及直接在 3D 形状上进行训练。在 3D 形状上训练扩散或流动模型时,关键的设计选择是形状表示。有效的形状表示需要遵循三个设计原则:它应该允许将大型 3D 数据集有效地转换为表示形式;它应该提供近似功效与参数数量的良好权衡;它应该具有与现有强大的神经架构兼容的简单张量形式 ...
视觉语言动作模型(VLA)作为通才机器人策略表现出巨大的潜力。但是,这些模型在部署期间构成了紧急安全挑战,包括对环境,机器人本身和人类的身体伤害的风险。如何将安全性明确纳入VLA?在这项工作中,我们提出了一种新型算法Safevla,旨在将安全性整合到VLAS中,以确保对环境,机器人硬件和人类在现实环境中的保护 ...
传统的电子商务搜索系统采用多阶段级联体系结构(MCA),通过召回,预先排名和排名阶段逐步过滤项目。这些系统虽然有效地平衡了计算效率与业务转化,但跨阶段的计算和优化客观碰撞遭受了零散的损失,这最终限制了其性能上限。为了解决这些问题,我们建议\ textbf {OneSearch},这是第一个用于电子商务搜索的工业部署的端到端生成框架 ...
现有的键值(KV)缓存压缩方法通常取决于启发式方法,例如跨层的均匀缓存分配或静态驱逐策略,但是,它们忽略了特定于图层特定特征的特征模式和任务性能之间的关键相互作用,这会导致降级的普遍化。在本文中,我们提出了Evolkv,这是一个适用于层次,任务驱动的KV高速缓存压缩的自适应框架,共同优化了内存效率和任务性能。通过将缓存分配重新定义为多目标优化问题,Evolkv利用进化搜索来动态配置图层预算,同时直 ...
多模式大语言模型的最新进展通过整合文本和视觉信息来增强文档的理解。但是,现有模型在实际情况下,尤其是在视觉降解下表现出其范式中的不完整。在这种情况下,当前的响应范式通常无法充分感知视觉下降和模棱两可,从而导致对语言先验或未对象的视觉文本推理过度依赖 ...
参数有效的调整(PET)旨在通过学习少量参数将预训练的基础模型转移到下游任务。与传统的微调更新整个模型相比,PET大大降低了每个任务的存储和转移成本,而不管预先培训的模型容量呈指数增长。但是,大多数PET方法都继承了其大型骨干模型的推理潜伏期,并且由于其他模块(e ...
在一环级别上,衰减F1-> F2伽玛,其中F1和F2是两个带有相同电荷的Spin-1/2颗粒,由A Boson B和Spin-1/2 Fermion F介导。BOSONB可以通过Dirac Matrices 1 and Gamma5 and Gamma5-或v+a和V+a和v-a和v-a和v-a和v-a和v-a和v-a和v-a和v-a和v-a和v-a和v-a和v-a和v-a和v-a和v-a和v-a ...