我们研究了LLMS的级别学数学(GSM)解决问题能力的深度。为此,我们一起评估了他们在现有的数学单词问题对上的表现,以便第二个问题的答案取决于正确回答第一个问题。我们的发现显示了大多数LLM的明显推理差距,即解决组成对和独立解决每个问题之间的性能差异 ...
Schrödinger桥(SB)问题为结合最佳传输和扩散模型提供了有力的框架。解决SB问题的一种有希望的方法是迭代的马尔可夫拟合程序(IMF)程序,该程序在连续时间随机过程的马尔可夫和互惠投影之间交替。但是,由于使用数值求解器的许多步骤,用于随机微分方程,因此由IMF过程构建的模型具有较长的推理时间 ...
当前基于优化的人类运动的控制技术努力在动态步态步态中同时适应阶梯持续时间和放置,因为它们依赖固定时间离散化,这限制了对地形条件的响应,并在挑战性环境中导致次优性能。在这项工作中,我们提出了一个步态网络的隐式基诺模型预测性控制(MPC),以同时优化自然可变频率运动的步骤位置,步骤持续时间和接触力。所提出的方法结合了步态网络增强的顺序凸MPC算法,以通过迭代性二次程序来求解多线性约束的变量 ...
在图像超分辨率的背景下,对抗性训练非常成功。被证明可以产生现实且高度详细的结果。尽管取得了成功,但许多用于视频超分辨率的最新方法仍然有利于更简单的规范,例如$ L_2 $,而不是对抗损失功能 ...
在本文中,我们提出了一种用于多模态理解和生成的视觉-音频-语言全感知预训练模型(VALOR)。与广泛研究的视觉语言预训练模型不同,VALOR 以端到端的方式联合建模视觉、音频和语言的关系。它包含三个用于单模态表示的独立编码器,以及一个用于多模态条件文本生成的解码器 ...
大型多模式基础模型(LMM)的快速发展为可能解释的图像质量评估(EIQA)铺平了道路,并从两个角度进行了教学调整:整体质量解释和属性的感知回答。但是,现有的作品通常忽略了这两种类型的感知解释之间的冲突,从而导致理解不足。为了减轻这种情况,我们提出了一个新的范式,用于以感知为导向的指令调整,即 ...
在图形分类中,基于注意力和基于汇总的图形神经网络(GNN)占上风,从输入图中提取关键特征并支持预测。他们主要遵循学习参加的范式,从而最大程度地提高了所在图和地面标签之间的相互信息。但是,该范式使GNN分类器鲁ck吸收了训练数据中输入特征和标签之间的所有统计相关性,而不会区分特征的因果和非因果关系 ...
自过去十年以来,具有收缩和扩展路径的全卷积神经网络(fcnn)在大多数医学图像分割应用中表现出了突出的作用。在fcnn中,编码器通过学习全局和局部特征以及上下文表示来发挥不可或缺的作用,这些特征和上下文表示可用于解码器的语义输出预测。尽管取得了成功,但 ...