大规模遥感视频数据的可用性强调了高质量交互式分割的重要性。但是,诸如小物体大小,模棱两可的特征和有限的概括之类的挑战使得当前方法难以实现此目标。在这项工作中,我们提出了ROS-SAM,这种方法旨在实现高质量的交互式分割,同时保留跨不同遥感数据的概括 ...
大多数现有的移动机器人数据集主要捕获静态场景,从而限制了其在动态环境中评估机器人性能的实用程序。为了解决这个问题,我们提出了一个面向移动机器人的大规模室内数据集,称为Thud ++(Tsinghua University Dynamic)机器人数据集,以进行动态场景的理解。我们当前的数据集包括13个大规模动态场景,将现实世界和合成数据分别与真实的机器人平台和物理模拟平台相结合 ...
街头场景的感性4D重建对于在自动驾驶中开发现实世界中的模拟器至关重要。但是,大多数现有方法脱机执行此任务,并依靠时必的迭代过程,从而限制了其实际应用。为此,我们介绍了一个大型的4D高斯重建模型(DriveRecon),这是一种可推广的驾驶场景重建模型,该模型直接从环绕视频视频中预测4D高斯 ...
大多数基于LLM的代理框架都采用自上而下的哲学:人类分解任务,定义工作流程并分配代理人执行每个步骤。尽管对基准式任务有效,但此类系统依靠设计师的更新和忽略了代理商从经验中学习的潜力。最近,Silver和Sutton(2025)想到了进入一个新时代的转变,在那里,代理商可以从经验中进步 ...
基于学习的方法,例如模仿学习(IL)和增强学习(RL),可以在挑战性敏捷的机器人任务(例如运动机器人)上制定Excel控制政策。但是,没有现有的工作将基于学习的政策与基于模型的方法协调,以降低训练的复杂性并确保敏捷羽毛球机器人控制的安全性和稳定性。在本文中,我们介绍了敏捷羽毛球机器人的新型混合控制系统Hamlet ...
最近的 English Common Crawl 数据集(例如 FineWeb-Edu 和 DCLM)通过积极的基于模型的过滤取得了显着的基准收益,但代价是删除了 90% 的数据。这限制了它们对长 Token 范围训练的适用性,例如 Llama 3.1 的 15T Token ...
通过增强学习(RL)面临关键挑战的图形用户界面(GUI)代理的培训视觉模型(VLM):基于环境的RL需要昂贵的互动,而环境无环境方法则在分配转移和奖励概括方面挣扎。我们提出了一个无环境的RL框架,该框架通过利用预验证的价值环境模型(VEM)来将价值估计与策略优化分解。 VEM可以直接从离线数据预测状态行动值,从而在不需要下一州的预测或环境反馈的情况下将类似人类的人的先验提炼 ...
GUI代理的研究重点是从依赖文本的方法转移到基于纯正的方法,尽管有希望,但在忽略上下文建模挑战的同时,优先考虑全面培训的数据收集。我们探究了GUI代理中元素和历史上下文建模的特征,并总结:1)元素上下文的高密度和松散关系突出了许多无关元素的存在及其负面影响; 2)历史上下文的高冗余揭示了当前GUI代理中效率低下的历史建模。在这项工作中,我们提出了一个上下文感知的简化框架,用于构建称为Simpage ...