本文探讨了多智能体系统的现有工作,并确定了尚未充分解决的挑战。通过利用多代理系统中各个代理的不同功能和角色,这些系统可以通过协作来处理复杂的任务。我们讨论优化任务分配,通过迭代辩论促进强大的推理,管理复杂和分层的上下文信息,以及增强内存管理以支持多智能体系统内复杂的交互 ...
3D重建在现代摄影测量系统中起越来越重要的作用。传统的卫星或空中遥感平台可以为大规模地面和城市的3D重建提供必要的数据源。即使有低空无人机(无人驾驶汽车),由于频繁跟踪摄像头框架和高数据收集成本之间的经常跟踪故障,因此在复杂情况下的3D重建(例如Urban Canyons和室内场景)也很具有挑战性 ...
由于其创建现实的3D场景的能力,神经渲染引起了极大的关注。但是,它对广泛场景的适用性仍然具有挑战性,并有效率限制。在这项工作中,我们提出了无人机-NERF框架,以增强使用神经辐射场(NERF)适用于无人机倾斜摄影的无界大型场景的有效重建 ...
大型的多模式混合物(MOE)有效地扩展了模型大小,以增强性能,同时保持固定的活动参数。但是,以前的作品主要在稀疏的上循环期间利用完整精确的专家。尽管他们在最终任务上表现出卓越的性能,但大量专家仍引入了更高的内存足迹,这对边缘设备上的部署构成了重大挑战 ...
大型语言模型~(LLM)已成为自然语言处理领域的基础,随着模型大小的增加,性能得到提高。 Mixture-of-Experts~(MoE) 方法提供了一种有前途的方法,通过稀疏激活使用更少的计算 FLOP,更有效地扩展 LLM。然而,它会产生大量的内存开销,因此需要模型压缩技术 ...
VILA-U是一个集成了视频、图像、语言理解和生成的统一基础模型。传统的视觉语言模型 (VLM) 使用单独的模块来理解和生成视觉内容,这可能会导致错位并增加复杂性。相比之下,VILA-U 对这两项任务采用单一自回归下一个标记预测框架,从而无需扩散模型等其他组件 ...
一般时间序列的现有作品预测建立基础模型,具有大型模型参数,通过大规模的多源预培训。这些模型以巨大的计算负担和资源约束场景的限制为代价实现了各种数据集的出色概括能力。本文介绍了Lightgts,这是一种轻巧的一般时间序列预测模型,从一致的定期建模的角度设计 ...
现实世界数据集遵循不平衡的分布,这在稀有类别对象检测中构成了重大挑战。最近的研究通过开发重新加权和重新采样方法来解决此问题,该方法利用了数据集的类频率。但是,这些技术仅关注频率统计信息,而忽略了图像空间中类的分布,而缺少重要信息 ...