文本到图像扩散模型使艺术家具有高质量的图像产生。然而,他们的随机性质阻碍了艺术家创建同一主题的一致图像。现有方法试图应对这一挑战并以各种方式产生一致的内容 ...
图形神经网络(GNN)在许多图形学习任务中表现出令人印象深刻的表现。然而,当输入图数据遭受弱信息时,GNN的性能可能会恶化 ...
从源域收集到未知目标域的概括机器学习模型的主题是具有挑战性的。尽管许多域的概括(DG)方法已经取得了令人鼓舞的结果,但它们主要依赖于火车时间的源域,而无需在测试时操作目标域。因此,这些方法仍然有可能过度拟合到源域并在目标域上表现不佳 ...
本文介绍了一个用于体积分段的网络,该网络从稀疏注释的体积图像中学习。我们概述了此方法的两个有吸引力的用例:(1)在半自动化的设置中,用户注释要分割的卷中的一些切片。该网络从这些稀疏的注释中学习,并提供密集的3D分割 ...
大型语言模型(LLM)表现出了非凡的功能,但经常在需要复杂推理的任务上面临挑战。虽然经过思考链(COT)促使推理显着增强了推理,但它不加选择地为所有查询产生了冗长的推理步骤,从而导致了实质性的计算成本和效率低下,尤其是对于简单的输入而言。为了解决这个关键问题,我们引入了ADACOT(自适应链),这是一个新颖的框架,使LLMS能够自适应地决定何时调用COT ...
变形金刚作为一种基本的深度学习体系结构,在推理中表现出了非凡的能力。本文研究了 Transformer 及其参数知识的一阶逻辑推理能力,并探讨了改善它的方法。变形金刚的一阶推理能力是通过执行一阶逻辑需要的能力来评估的,该能力通过其在回答知识图查询时的性能来定量衡量 ...
我们推出了unified-io 2,这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。为了统一不同的模态,我们将输入和输出(图像、文本、音频、动作、边界框等)标记化到共享语义空间中,然后使用单个编码器,然后使用单个编码器... ...
由于其二次时间的复杂性,注意力的效率很重要。我们通过两个关键贡献提高了注意力的效率:首先,我们利用Blackwell GPU中的新FP4张量核心来加速注意力计算。我们的实施在RTX5090上实现了1038个顶部,这是RTX5090上最快的闪存的5倍加速 ...