语言图像预训练在很大程度上取决于文本描述其配对的图像的精确和彻底描述。但是,在实践中,图像的内容可能是如此丰富,以至于描述它们的内容都需要冗长的字幕(例如 ...
专家(MOE)模型的混合物对于在控制推理成本的同时对缩放模型的容量至关重要。在将MOE集成到诸如夹子之类的多模型中,可以提高性能,但众所周知,培训这些模型具有挑战性且昂贵。我们提出了剪辑剪辑(剪辑),这是一种有效的替代培训策略,可将预先训练的密集夹模型转换为稀疏的MoE体系结构 ...
在交通模拟中生成真实且可控的代理行为对于自动驾驶车辆的开发至关重要。这个问题通常被表述为通过直接预测未来轨迹或通过逆最优控制推断成本函数来从现实世界驾驶数据中进行模仿学习(IL)。在本文中,我们在 IL 和基于扩散的生成建模之间建立了概念联系,并引入了一种新颖的框架多功能行为扩散(VBD)来模拟与多个交通参与者的交互场景 ...
模型大小和推理速度/功率已成为许多应用程序神经网络部署的主要挑战。解决这些问题的一种有希望的方法是量化。但是,将模型均匀地量化为超低精度会导致明显的准确性降解 ...
基于 Transformer 的体系结构已成为用于一系列自然语言处理任务的事实上的模型。特别是,基于BERT的模型可实现胶水任务(CONLL-03和sequad)的显着准确性增益。但是,基于BERT的模型具有令人难以置信的内存足迹和延迟 ...
随机通用的线性匪徒是一个很好地理解的,用于顺序决策问题的模型,许多算法在立即反馈下实现了近乎最佳的遗憾。但是,在奖励几乎总是延迟的许多实际应用中,对即时奖励的严格要求是未得到满足的。我们以理论方式研究了普遍的线性斑块中延迟奖励的现象 ...
信号表示的稀疏性已被证明是在盲源分离,压缩,采样和信号分析等领域中基本重要性的关键概念。本文的目的是比较基于直觉属性的几种常用的稀疏度度量。直观地,稀疏表示是少数系数包含很大比例的能量的表示形式 ...
从文本和图像生成高质量的3d资源长期以来一直具有挑战性,这主要是由于缺乏能够捕获复杂几何分布的可扩展3d表示。在这项工作中,我们引入了direct3d,这是一种可扩展,这是一种可扩展至野外输入图像的原生3d生成模型,无需多视图扩散模型或sds:直接3d变分自动编码器(D3D-VAE)和直接3D扩散transformer(D3D-DIT) ... ...