大型语言模型(LLM)推动了人工智能的前沿,但由数百十亿个参数和操作组成。为了更快的推理延迟,LLM通过各种模型并行策略部署在多个硬件加速器上。我们的论文研究了一个这样一种策略的细节 - 张量 - 并行 - 建议通过压缩加速器间通信来减少延迟 ...
跨越显着不同的视觉域(例如真实的照片,剪贴画,绘画和草图)的能力是人类视觉系统的基本能力。在本文中,与使用某些(或完整的)源域监督的大多数跨域作品不同,我们处理了一个相对较新且非常实用的无监督域概括(UDG)设置,即在源和目标域中既没有培训监督,否则我们的方法是基于对跨域(BRAD)的桥梁的自我监督的学习 - 辅助桥域伴随着一组语义,这些语义可以保留视觉(图像到图像)映射,从每个训练域中为br ...
当前的LLM结构化修剪方法通常涉及两个步骤:(1)带有校准数据的压缩以及(2)对数十亿个 Token 的持续预测,以恢复损失的性能。第二步是必要的,因为第一步会显着影响模型的准确性。先前的研究表明,经过预估计的 Transformer 权重与其激活不同,这可能解释了这种下降 ...
零拍摄的人类相互作用(HOI)检测的最新方法通常利用了看不见的类别的大视觉模型(即VLM)(即夹子)的概括能力,在各种零弹药设置上显示出令人印象深刻的结果 ...
离散的音频表示(称为音频 Token )大致分为语义和声音 Token ,通常通过无监督的连续音频表示形式产生。但是,它们适用于自动化音频字幕(AAC)的适用性尚未得到充实。本文通过对各种 Token 化方法的比较分析,系统地研究了 Token 驱动模型的AAC的可行性 ...
随着大型音频模型(LALMS)的进步,增强了具有听觉功能的大型语言模型(LLM),这些模型有望证明各种听觉任务的普遍熟练程度。尽管已经出现了许多基准来评估LALMS的性能,但它们仍然分散,缺乏结构化的分类法。为了弥合这一差距,我们进行了一项全面的调查,并提出了针对LALM评估的系统分类法,将它们根据其目标分为四个维度:(1)一般听觉意识和处理,(2)知识和推理,(3)面向对话的能力,以及(4)公平 ...
Transformer 架构在各种模型中占主导地位。作为 Transformer 的核心,注意力的计算复杂度为 O(N^2),而线性变换的计算复杂度为 O(N)。当处理大序列长度时,注意力成为主要耗时的组成部分 ...
预训练的语言模型越来越重要的组成部分(IR)范式中的组成部分。与Colbert Model一起引入并最近在ColbertV2中提出的后期互动是一种流行的范式,在许多基准测试中都具有最先进的地位。为了极大地加快晚期互动的搜索延迟,我们介绍了性能优化的后期互动驱动器(格子) ...