大型语言模型(LLMS)的快速进步,尤其是在其推理能力中,具有解决大气科学中复杂挑战的变革潜力。但是,在该领域有效利用LLM需要强大而全面的评估基准。为了满足这一需求,我们提出了Atmossci-Bench,这是一种新型的基准测试,旨在系统地评估大气科学问题五个核心类别的LLM性能:水文,大气动力学,大气物理学,地球物理学和物理海洋学 ...
端到端的自主驾驶(E2E-AD)已成为自动驾驶领域的一种趋势,有望采用数据驱动的,可扩展的系统设计方法。但是,现有的E2E-AD方法通常采用感知预测计划的顺序范式,从而导致累积错误和训练不稳定性。任务的手动排序还限制了系统在任务之间利用协同作用的能力(例如,计划意识感知和游戏理论互动预测和计划) ...
培训和部署大型语言模型需要大量的计算资源,因为语言模型包含数十亿个参数,并且文本具有数千个 Token 。另一个问题是大语言模型是静态的。它们在训练过程后是固定的 ...
我们提出了成像视频,这是一种基于级联视频扩散模型的文本条件视频生成系统。给定文本提示,成像视频使用基本视频生成模型和一系列交错的空间和时间视频超分辨率模型生成高清视频。我们描述了如何将系统扩展为高清文本到视频模型,包括设计决策,例如在某些分辨率下选择全卷积时间和空间超分辨率模型,以及扩散的 ...
由于组织结构的复杂性质和标记数据的稀缺性,从Gigapixel全部幻灯片图像(WSI)中学习对计算病理学构成了重大挑战。多企业学习方法已经解决了这一挑战,利用自我监督的学习(SSL)方法利用图像贴片来对幻灯片进行分类。 SSL和MIL方法的性能依赖于功能编码器的架构 ...
我们提出了Make-A-Video-一种直接将文本形象(T2I)生成最新进展的方法直接转化为文本对视频(T2V)的方法。我们的直觉很简单:了解世界的外观以及如何从配对的文本图像数据中描述它,并了解世界如何从无监督的录像中移动。 Make-A-Video具有三个优点:(1)它加速了T2V模型的培训(它不需要从头开始学习视觉和多模式表示),(2)它不需要成对的文本视频数据,并且(3)生成的视频继承了广 ...
与物理或化学等其他科学学科相比,生物医学知识具有独特的复杂性和结构化性,需要独特的推理策略。生物医学科学家并不依赖单一的推理方法;而是依赖于单一的推理方法。相反,他们使用各种策略,包括基于规则、基于原型和基于案例的推理。这种多样性需要灵活的方法来适应多种推理策略,同时利用领域内的知识 ...
最近,视觉语言动作模型(VLA)具有先进的机器人模仿学习,但是高数据收集成本和有限的演示限制了概括和当前的模仿学习方法在分布外的场景中挣扎,尤其是对于长途任务。一个关键的挑战是如何减轻模仿学习中的复杂错误,从而导致对扩展轨迹的失败。为了应对这些挑战,我们提出了扩散轨迹引导的策略(DTP)框架,该框架通过扩散模型生成2D轨迹,以指导长途任务的策略学习 ...