A wide variety of deep generative models has been developed in the past decade.然而,这些模型通常在同时解决三个关键要求的同时困难,包括:高样本质量,模式覆盖范围和快速采样。我们将这些要求施加的挑战称为生成学习三元素,因为现有模型经常将其中的一些交易交换为其他模型 ...
Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning
基于对比学习的视频语言表示方法,例如剪辑,已经取得了出色的性能,可以在预定的视频文本对上进行语义互动 ...
通过深度学习的发展,单像超级分辨率(SISR)取得了重大突破。但是,这些方法很难在实际情况下应用,因为它们不可避免地伴随着复杂操作引起的计算和记忆成本问题。为了解决此问题,我们为SISR提出了一个轻型双峰网络(LBNET) ...
深度神经网络(DNNS)的误解 - 模型的信心与正确性之间的不匹配使他们的预测难以依赖。理想情况下,我们希望网络准确,校准和自信。我们表明,与标准的横向损失相反,局灶性损失[Lin等 ...
代码的大型语言模型(LLM)已经在各个领域变得不可或缺,包括代码生成、推理任务和代理这种http URL开放访问代码LLM越来越接近专有模型的性能水平,高质量的代码LLM适合严格的科学调查,特别是那些具有可重复数据处理流程和透明培训协议的调查,仍然有限。这种稀缺性是由于各种挑战造成的,包括资源限制、道德考虑以及保持模型先进的竞争优势。为了弥补这一差距,我们引入了 OpenCoder,这是一种顶级代 ...
视觉语言模型(VLMS)学习用于文本和图像的共享特征空间,从而可以比较不同方式的输入。虽然先前的工作表明VLM将自然语言表示形式组织到编码复合含义的常规结构中,但尚不清楚在视觉嵌入空间中是否还出现了组成模式。在这项工作中,我们研究了图像结构域中的组成性,其中组成特性的分析受到视觉数据的噪声和稀疏性的挑战 ...
图形能够在许多在线服务中建模互连实体,从而支持网络上的广泛应用程序。这提出了一个重要的问题:我们如何在多个源域上训练图基础模型并适应看不见的目标域?一个主要的障碍是,来自不同领域的图通常表现出不同的特征。一些研究利用大型语言模型根据与图形相关的文本描述对齐多个域,从而将其适用性限制在文本属性图中 ...
科学发现依靠科学家产生了经过严格实验验证的新假设。为了增加此过程,我们引入了AI共同科学家,这是一种基于Gemini 2.0的多代理系统 ...