在本文中,我们介绍了一个完整的系统,用于在动态环境中具有载载感应的四肢自动飞行。从现有工作延伸,我们基于深度图像开发了一种遮挡感知的动态感知方法,该方法将障碍物归类为动态和静态。为了代表通用动态环境,我们将动态对象与移动椭圆形和保险丝静态对象建模为占用网格图 ...
文本到图像扩散模型的最新进展已获得了令人印象深刻的图像产生能力。但是,控制所需属性的生成过程仍然具有挑战性(例如 ...
文本到图像生成模型通常会在长时间提示中努力详细介绍复杂的场景,具有独特的视觉特征和空间关系的各种对象。在这项工作中,我们提出了范围(粗到及时嵌入的计划插值),这是一种无训练的方法,可通过以粗到细粒度的方式逐步完善输入提示,以改善文本对象对齐。给定详细的输入提示,我们首先将其分解为多个子奖励,这些子参数从描述广泛的场景布局到高度复杂的细节 ...
当前用于检测AI生成的文本的技术主要局限于手动特征制作和监督二进制分类范式。这些方法通常会导致性能瓶颈和不令人满意的概括性。因此,这些方法通常不适用于分布(OOD)数据和新出现的大型语言模型(LLMS) ...
自动驾驶汽车(AV)堆栈传统上依赖于分解的方法,并具有单独的模块处理感知,预测和计划。但是,该设计在模块间通信期间引入了信息丢失,增加了计算开销,并可能导致更复杂的错误。为了应对这些挑战,最近的作品提出了将所有组件集成到端到端可区分模型中,从而实现整体系统优化 ...
纵向磁共振成像(MRI)数据集的可用性不断增长,促进了人工智能(AI)驱动的疾病进展模型,从而可以预测对个别患者的未来医学扫描。然而,尽管AI取得了重大进步,但当前的方法仍在面临挑战,包括实现患者特定的个性化,确保时空的一致性,有效利用纵向数据以及管理3D扫描的大量记忆需求。为了应对这些挑战,我们提出了脑潜在进展(BRLP),这是一种新型时空模型,旨在预测3D脑MRIS中的个体疾病进展 ...
大型语言模型 (LLM) 在从自然语言处理到计算机视觉等各个领域取得了前所未有的进步。 LLM 的实力得益于其庞大的模型规模、广泛多样的数据集以及训练过程中利用的巨大计算能力,所有这些都有助于 LLM 的新兴能力(例如, ...
时间序列分类是支持各个领域的决策过程的相关步骤,深层神经模型显示出令人鼓舞的表现。尽管在深度学习方面取得了重大进步,但对复杂体系结构的运作方式和为什么仍然有限的理论理解,促使人们需要更加可解释的模型。最近,已经提出了Kolmogorov-Arnold网络(KANS)作为更容易解释的替代方案 ...