通常认为,缩放语言模型应通过增加参数(参数缩放)或输出 Token (推进时间缩放)来实现大量的空间或时间成本。我们介绍了第三个也是更高的推理缩放范式:在训练和推理时间内增加模型的并行计算。我们将$ p $多样性和可学习的转换应用于输入,并行执行模型的前向通过,然后动态汇总$ p $输出 ...
由于需要精确的唇部同步,自然的面部表情和高保真的身体运动动力学,因此产生由音频和骨骼运动驱动的高度动态和影像肖像动画仍然具有挑战性。我们提出了一个与人类优先一致的扩散框架,该框架通过两个关键的创新来解决这些挑战。首先,我们引入了针对以人为中心的动画定制的直接偏好优化,利用人类偏好的策划数据集将生成的输出与感知指标相结合,以进行肖像运动视频对齐和表达的自然性 ...
大规模培训语料库已大大提高了ASR模型的性能。不幸的是,由于数据的相对稀缺性,对于大多数ASR模型来说,中国口音和方言仍然是一个挑战。自我监督学习的最新进展表明,自我监督的预训练与大语言模型(LLM)相结合可以有效地提高低资源场景中的ASR绩效 ...
有人抱怨当前的机器学习技术,例如需要大量的培训数据和熟练的培训技巧,持续学习的困难,灾难性遗忘的风险,数据隐私/专有性的泄漏等。大多数研究工作都集中在分别关注的问题上,对大多数问题的关注较少,因为大多数问题在实践中遇到了大多数问题。普遍的大型模型范式在自然语言处理和计算机视觉应用中取得了令人印象深刻的结果,但尚未解决这些问题,而成为严重的碳排放源 ...
生成API的兴起激发了人们对保护隐私合成数据生成的兴趣。虽然私有进化算法(PE)算法使用扩散模型API生成差异隐私(DP)合成图像,但由于其DP保护相似性投票方法的局限性,它在很少的私有数据中挣扎。实际上,在医疗保健和行业等专业领域中,少数私人数据挑战尤为普遍 ...
具有矢量量化(VQ)的掩盖图像建模(MIM)在自我监督的预训练和图像生成方面都取得了巨大的成功。但是,大多数现有的方法都难以解决共享的潜在空间中的权衡,以进行发电质量与表示和效率 ...
在解决复杂的任务时,经过深思熟虑的(COT)推理具有明显的高级大语模型(LLM)。但是,其自回旋范式导致了大量的计算开销,从而阻碍了其在潜伏期敏感的应用中的部署。为了解决这个问题,我们提出\ textbf {dart}(\ textbf {d} istilling \ textbf {a} utoregrelistion \ textbf {r}对静音\ textbf {t} houghted进行 ...
近年来,大型的预训练的 Transformer 已导致对传统检索模型和反馈方法的绩效增长。但是,这些结果主要基于MS MARCO/TREC深度学习轨道设置,其特殊的设置以及我们对这些模型为什么和如何更好地工作的理解充其量是最好的。我们分析了有效的基于BERT的跨编码器与传统的BM25排名,以进行通过观察到最大收益的通道检索任务,并研究了两个主要问题 ...