建立有效,高效的基于 Transformer 的大型语言模型(LLM)最近已成为研究重点,需要最大程度地提高模型语言能力并最大程度地降低培训和部署成本。现有的努力主要描述了模型性能,参数大小和数据大小之间的复杂关系,并搜索了训练LLM的最佳计算分配。但是,他们忽略了上下文长度和注意力头配置的影响(在分组疑问注意力中的查询和键值头的数量)对训练和推理的影响 ...
这项工作从3D形态模型(3DMM)和3D面部标志的协同过程中学习学习,以预测完整的3D面部几何形状,包括3D对齐,面部取向和3D面部建模。我们的协同过程利用了3DMM参数和3D地标的表示周期。 3D地标可以从3DMM参数构建的面部网格中提取和改进 ...
尽管人类评估仍然是开放域对话评估的黄金标准,但使用大型语言模型 (LLM) 的自动评估的日益普及也扩展到了对话领域。然而,大多数框架利用在流畅性和相关性等方面评估旧聊天机器人的基准,这并不能反映与当代模型相关的挑战。事实上,对Soda的定性分析,是GPT-3 ...
对整个状态的感知是支持物理系统的监视,分析和设计的重要技术,其挑战是从稀疏观察中恢复全球领域。深层神经网络以出色的近似能力而闻名,对数据驱动的流量和热场重建研究具有吸引力。但是,受网络结构的限制,现有研究主要学习有限维空间中的重建映射,并且可以转移到变量分辨率的输出分辨率 ...
现有的行人属性识别(PAR)算法主要是基于静态图像开发的,但是,在挑战性的情况下,诸如重型遮挡,动作模糊等的挑战性场景中的性能是不可靠的。在这项工作中,我们建议使用可以通过视频框架来理解人类属性,以通过视频框架来通过预先调整预处理的多型多模型基础模型,以充分使用时间范围。具体而言,我们将基于视频的PAR作为视觉融合问题制定,并采用预先训练的基础模型剪辑来提取视觉特征 ...
大型语言模型(LLM)代理在多域任务中表现出显着的概括能力。现有的代理调整方法通常在整个专家轨迹上采用监督的固定。但是,全面轨迹的行为限制会引入专家偏见,并削弱专家数据所涵盖的状态 ...
最近,扩散模型已成为机器人策略学习的强大生成技术,能够对多模式动作分布进行建模。利用其端到端自动驾驶能力是一个有前途的方向。然而,机器人扩散策略中的众多去噪步骤以及交通场景更加动态、开放的性质对实时生成不同的驾驶动作提出了巨大的挑战 ...
近年来,3D 视觉已成为计算机视觉中的一个关键领域,为自动驾驶、机器人、增强现实 (AR) 和医学成像等广泛应用提供支持。该领域依赖于从图像和视频等 2D 数据源准确感知、理解和重建 3D 场景。扩散模型最初是为 2D 生成任务设计的,它提供了更灵活的概率方法的潜力,可以更好地捕获现实世界 3D 数据中存在的可变性和不确定性 ...