复杂的推理任务通常依赖于始终如一,准确地在增量步骤中应用简单规则的能力,这是我们称为“级别0”推理的基础能力。为了系统地评估此功能,我们介绍了L0 Bench,这是一种用于测试程序正确性的语言模型基准 - 生成正确的推理过程的能力,并补充了主要关注结果正确性的现有基准测试。给定具有简单操作的合成python函数,L0基础等级模型在其生成逐步的,无错误的执行轨迹的能力上 ...
我们提出了一个生成模型,鉴于经过粗细的图像,该模型合成了遵循规定布局的光真逼真的输出。我们的方法从原始图像传输细节,并保留其部分的身份。但是,它使其适应了新布局定义的照明和上下文 ...
多孔介质中多相流的数值模拟对于许多地球科学应用至关重要。使用数值模拟数据训练的机器学习模型可以提供比传统模拟器更快的替代方案。在这里,我们提出了u-fno,一种新颖的神经网络架构,用于解决多相流问题,具有卓越的精度、速度和数据效率 ... ...
本文介绍了一个新的卷积网络家族,具有更快的训练速度和比以前的模型更好的参数效率。为了开发这种模型家族,我们结合了训练感知的神经结构搜索和缩放,以共同优化训练速度和参数效率。从搜索空间中搜索了这些模型,这些搜索空间充满了新的操作,例如Fused-MBConv ...
我们介绍了InternVL3,这是Intervl系列的重大进步,该系列具有本地多模式预训练范式。 Intervl3并没有将仅文本大语模型(LLM)调整为支持视觉输入的多模式大型语言模型(MLLM),而是在单个预训练阶段中共同从多样化的多模式数据和纯文本公司中获得多模式和语言能力。这种统一的训练范式有效地解决了MLLM的常规事后培训管道中通常遇到的复杂性和一致性挑战 ...
我们提出了一种方法,可以有效地配备任何模型(SAM)具有生成区域字幕的能力。山姆提出了强烈的概括性,可以分割任何东西,而语义理解的缩写。通过引入一个基于查询的轻质特征混合器,我们将特定区域的特征与语言模型的嵌入空间保持一致,以供以后的字幕生成 ...
行动质量评估(AQA)定量评估人类行动的质量,提供自动评估,以减少人类判断中的偏见。它的应用程序涵盖了体育分析,技能评估和医疗服务等领域。 AQA的最新进展引入了创新的方法,但是类似的方法经常跨不同领域交织在一起,突出了阻碍系统评价的分散性质 ...
在这项研究中,我们通过一种创新的复合模仿学习方法来解决无人驾驶飞机(UAV)的挑战,该方法结合了近端政策优化(PPO)与行为克隆(BC)和生成对抗性的模仿学习(GAIL)的挑战,并通过雷传递技术的整合而丰富。我们的研究强调了射线追踪在增强障碍物检测和回避功能中的重要作用。此外,我们证明了将Gail纳入协调两种无人机的飞行路径的有效性,从而展示了提高的避免碰撞能力 ...