文本到图像生成传统上专注于寻找更好的建模假设以在固定数据集上进行训练。这些假设可能涉及复杂的架构、辅助损失或辅助信息,例如训练期间提供的对象部分标签或分割掩模。我们描述了一种基于 Transformer 的简单方法来完成此任务,该 Transformer 将文本和图像标记自回归建模为单个数据流... ...
推理大型语言模型正在跨各个领域迅速发展。但是,它们在处理复杂财务任务的能力仍然需要深入探索。在本文中,我们介绍了Fin-R1,这是一种专门为金融领域设计的大型语言模型 ...
许多现实世界网络非常大,并且会随着时间的流逝而不断变化。这些动态网络存在于社交网络,流量网络和生物互动等各个领域中。为了处理下游应用程序(例如链接预测和异常检测)中的大型动态网络,将这些网络转移到低维空间至关重要 ...
A wide variety of deep generative models has been developed in the past decade.然而,这些模型通常在同时解决三个关键要求的同时困难,包括:高样本质量,模式覆盖范围和快速采样。我们将这些要求施加的挑战称为生成学习三元素,因为现有模型经常将其中的一些交易交换为其他模型 ...
Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning
基于对比学习的视频语言表示方法,例如剪辑,已经取得了出色的性能,可以在预定的视频文本对上进行语义互动 ...
通过深度学习的发展,单像超级分辨率(SISR)取得了重大突破。但是,这些方法很难在实际情况下应用,因为它们不可避免地伴随着复杂操作引起的计算和记忆成本问题。为了解决此问题,我们为SISR提出了一个轻型双峰网络(LBNET) ...
深度神经网络(DNNS)的误解 - 模型的信心与正确性之间的不匹配使他们的预测难以依赖。理想情况下,我们希望网络准确,校准和自信。我们表明,与标准的横向损失相反,局灶性损失[Lin等 ...
代码的大型语言模型(LLM)已经在各个领域变得不可或缺,包括代码生成、推理任务和代理这种http URL开放访问代码LLM越来越接近专有模型的性能水平,高质量的代码LLM适合严格的科学调查,特别是那些具有可重复数据处理流程和透明培训协议的调查,仍然有限。这种稀缺性是由于各种挑战造成的,包括资源限制、道德考虑以及保持模型先进的竞争优势。为了弥补这一差距,我们引入了 OpenCoder,这是一种顶级代 ...