语言、视觉和多模态预训练的大融合正在出现。在这项工作中,我们引入了一种通用的多模态基础模型 BEiT-3,它在视觉和视觉语言任务上实现了最先进的传输性能。具体来说,我们从主干架构、预训练任务和模型扩展三个方面推进大融合 ...
自动事实检查 (AFC) 是对索赔准确性的自动验证。 AFC 对于辨别真假信息至关重要,特别是考虑到每天在线生成的大量内容。目前的研究重点是通过元数据分析和语言审查来预测索赔的准确性,重点是证明判决的合理性 ...
图良好过滤(GCF)在推荐任务中实现了最先进的性能。然而,大多数GCF结构简化了图补网络(GCN)中消息传递过程中的特征转换和非线性操作。我们重新利用了这两个问题各个组件,发现 GCN 中消息传递过程中的部分特征转换和非线性操作可以改善 GCF 的表示,但增加了分量... ...
持续学习(CL)旨在使机器学习模型能够不断地从新数据中学习,同时以以前获得的知识为基础而不会忘记。随着机器学习模型从小型预训练架构发展到大型预训练架构,从支持单模态数据发展到支持多模态数据,多模态连续学习(MMCL)方法最近出现了。 MMCL 的主要挑战是它超越了单峰 CL 方法的简单堆叠,因为这种简单的方法通常会产生不令人满意的性能 ...
基于扩散的视频生成的最新进展已经展示了显着的成果,但合成视频和真实世界视频之间的差距仍未得到充分探索。在这项研究中,我们从外观、运动和几何三个基本角度审视了这一差距,将现实世界的视频与最先进的人工智能模型“稳定视频扩散”生成的视频进行比较。为了实现这一目标,我们使用 3D 卷积网络训练三个分类器,每个分类器针对不同的方面:外观的视觉基础模型特征、运动的光流以及几何的单眼深度 ...
点击率 (CTR) 预测是在线广告系统中的一项关键任务。大量研究独立考虑每个广告,但忽略了其与可能影响点击率的其他广告的关系。在本文中,我们研究了各种类型的辅助广告,以提高目标广告的点击率预测 ...
在药物发现中,预测小分子药物的吸收、分布、代谢、排泄和毒性 (ADMET) 特性对于确保安全性和有效性至关重要。然而,准确预测这些特性的过程通常是资源密集型的,并且需要大量的实验数据。为了应对这一挑战,我们提出了 SMILES-Mamba,这是一种两阶段模型,通过结合自监督预训练和微调策略来利用未标记和标记数据 ...
基础模型现在为深度学习中大多数令人兴奋的应用程序提供支持,几乎普遍基于 Transformer 架构及其核心焦点模块。许多次二次时间架构(例如线性焦点、门控曲面和循环模型以及构造状态空间模型(SSM))已被开发出来,以解决 Transformer 在长序列上的计算效率低下的问题,但它们处于重要模式(例如作为语言)。我们发现此类模型的一个关键缺陷是它们无法执行根据内容的推理,并做出一些改进... . ...