通过偏微分方程(PDE)描述的利用物理知识是改善无监督视频预测方法的一种吸引人的方式。由于物理学对描述通用视频的完整视觉内容过于限制,因此我们介绍了Phydnet,这是一种两分支深度架构,它明确地将PDE Dynamics从未知的互补信息中删除。第二个贡献是提出一个新的经常性物理细胞(Phycell),灵感来自数据同化技术,用于在潜在空间中执行PDE受限的预测 ...
我们提出GLM-4.5,是具有355B总参数和32B激活参数的开源外源混合物(MOE)大型语言模型,具有一种支持思维和直接响应模式的混合推理方法。通过对23T Token 的多阶段培训以及专家模型迭代和强化学习的全面培训,GLM-4 ...
Manus AI是2025年初引入的通用AI代理,标志着自主人工智能的显着进步。由中国创业公司开发的HTTP URL,旨在弥合“思维”和“手”之间的差距 - 将大语言模型的推理和计划功能与执行复杂的端到端任务的能力相结合。本文介绍了Manus AI的全面概述,探索了其核心技术架构,包括医疗保健,金融,制造,机器人技术和游戏等领域的各种应用程序,以及其关键优势,当前的局限性以及未来的潜力 ...
在本文中,我们介绍了潜在的桥梁匹配(LBM),这是一种新的,多功能和可扩展的方法,依赖于潜在空间中的桥梁匹配来实现快速的图像到图像翻译。我们表明,该方法只能使用单个推理步骤来达到各种图像到图像任务的最新结果。除了其效率外,我们还演示了该方法在不同图像翻译任务(例如对象去除,正常和深度估计以及对象重新定义)中的多功能性 ...
近年来,时空预测学习取得了显着进展,结合了辅助输入、复杂的神经架构和复杂的训练策略。虽然令人印象深刻,但主流方法的系统复杂性也在增加,这可能会阻碍应用的便捷性。本文提出了 SimVP,这是一种简单的时空预测基线模型,完全基于卷积网络构建,没有循环架构,并通过常见的均方误差损失以端到端的方式进行训练 ...
LLM-AS-A-Gudge是一个使用LLM(大型语言模型)评估自然语言文本质量的框架 - 通常是LLM生成的文本。由于其相对低成本,易用性以及与人类风格偏好的相关性,该框架具有巨大的希望。但是,LLM法官已被证明表现出可能扭曲其判断力的偏见 ...
大多数现有的照明方法无法同时提供对光效应的自定义控制并保留内容完整性。这使得它们对实践照明样式化要求的有效性降低了,尤其是在将复杂的光效果从参考图像转移到用户指定的目标图像的挑战性任务中。为了解决这个问题,我们提出了Translight,这是一个新颖的框架,可以使光效应的高保真和高自由度转移 ...
BATGPT是由武汉大学和上海乔大学共同设计和培训的大规模语言模型。它能够生成高度自然和流利的文本,以响应各种类型的输入,包括文本提示,图像和音频。在建模级别中,我们采用双向自回归体系结构,使模型可以有效捕获自然语言的复杂依赖性,从而使其在语言生成,对话系统和问题答案等任务中非常有效 ...