基于 Transformer 的扩散模型最近启用了文本对视频(T2V)的生成,但是当前的T2V模型由于对时间模型中的物理现实主义和缺乏的理解有限,因此缺乏遵守现实世界常识和物理规则的能力。现有解决方案是数据驱动的,要么需要额外的模型输入,但不能推广到分布域。在本文中,我们介绍了Phyt2v,这是一种与数据无关的T2V技术,它通过在T2V提示中启用了思想链和逐步推理,扩大了当前T2V模型的视频生成能 ...
扩散模型凭借强大的生成能力,在图像动画方面取得了长足的进步。然而,随着时间的推移,保持输入静态图像的详细信息的时空一致性(例如,... ...
在海上通信中提供稳定的连接性对于释放智能端口的全部潜力至关重要。尽管如此,由于港口环境的拥挤性质,有些船可能会被其他船只所遮蔽,从而减少了接收的功率,随后降低了其数据速率 - 甚至可能威胁到基本的连接要求。鉴于未被拖放的航空车(UAV)被视为后代无线通信网络不可或缺的一部分,因此它们也可用于海上通信 ...
在本文中,我们调查了体现多代理合作的问题,在这个世界上只有以自我为中心的观点,分散的代理人必须合作。为了在这种情况下有效地计划,与在单一代理方案中学习世界动态相比,我们必须模拟以任意数量的代理行动为条件的世界动力学,仅在只有部分中心的世界视觉观察到世界上。为了解决该部分可观察性问题,我们首先训练生成模型,以估计以部分自我为中心的观察结果 ...
受DeepSeek-R1成功的启发,我们探讨了基于规则的强化学习(RL)在MLLM训练后进行感知政策学习的潜力。在有希望的同时,我们的最初实验表明,通过RL合并思维过程并不能始终导致所有视觉感知任务的性能提高。这导致我们在视觉感知的背景下深入研究RL的重要作用 ...
本文介绍了一种新模型,以生成短视频推荐的浏览过程,并通过用户参与反馈(SCAM)提出了一种新颖的细分内容知识模型,以在视频推荐中观看时间预测。与依靠多模式特征以了解视频内容理解的现有方法不同,骗局通过用户的历史观看行为隐式地对视频内容进行建模,从而在没有复杂的多模态数据的情况下实现了细分级别的理解。通过根据持续时间将视频分为段并采用类似 Transformer 的结构,骗局捕获了段之间的顺序依赖性 ...
通过自主定位和识别感兴趣的对象,对象检测在计算机视野领域起着至关重要的作用。您只看一次(YOLO)模型是一个有效的单杆检测器。但是,Yolo在混乱或部分遮挡的场景中面临挑战,并且可能与小型低对比度的物体斗争 ...