视觉语言模型(VLMS)是否用于开放式视频感知固有的开放式模型,因为它们是在互联网规模数据集中训练的?我们以清晰的否-VLMS通过其有限查询集引入了封闭设置的假设,使其容易受到开放式条件的影响。我们系统地评估VLM的开放式识别,发现它们经常错误分类的查询集中未包含的对象,从而导致高度较低的精度高于高召回率,反之亦然。我们表明,天真地增加查询设置的大小以包含越来越多的类并不能减轻此问题,而是会导致任 ...
0 0 0 2025/05/26 arXiv:2403.16528v2 ppbc
无碰撞计划对于在非结构化环境中运行的两足机器人至关重要。本文介绍了一个实时模型预测控制(MPC)框架,该框架解决了动态双皮机器人的身体和脚部避免。我们的贡献是两个方面:我们引入(1)一种新的配方,用于调整步骤时机以促进更快的身体避免速度,以及(2)一种新颖的3D脚步避免式配方,该配方隐含地选择了挥杆轨迹和立足点,该轨迹和立足点越过,或者在中心(COM)动力学中意识到障碍物围绕障碍而导致障碍 ...
0 0 0 2025/05/26 arXiv:2505.13715v1 yukun
本文提出了一个3-DOF跳跃机器人,具有类似人类的下LIMB关节构型和平坦的脚,能够执行动态和重复的跳跃运动。为了实现高扭矩输出和大型的空心轴直径以实现有效的电缆路由,使用混合智能非线性编程设计了一个紧凑的3K复合行星变速箱,以优化齿轮齿齿。为了满足受约束的关节几何形状中的性能要求,所有主要组件 - 包括执行器,电机驱动器和通信界面的定制设计 ...
0 0 0 2025/05/26 arXiv:2505.12231v2 yukun
最近利用深度加强学习的数据驱动方法已成为开发控制器的有效范式,该控制器能够实现物理模拟的角色产生自然的人类行为。但是,这些数据驱动的方法通常很难适应新颖的环境,并构成多样化的技能,以执行更复杂的任务。为了应对这些挑战,我们提出了一个混合模仿学习(HIL)框架,该框架结合了运动跟踪,以精确的技能复制以及对抗性模仿学习,以增强适应性和技能组成 ...
0 0 0 2025/05/26 arXiv:2505.12619v1 yukun
随着科学研究变得越来越复杂,需要创新的工具来管理大量数据,促进跨学科的合作并加速发现。大型语言模型(LLM)现在正在发展为基于LLM的科学代理,这些科学代理将关键任务自动化,从假设产生和实验设计到数据分析和仿真。与通用LLM不同,这些专业的代理集成了特定于域的知识,高级工具集和健壮的验证机制,从而使它们能够处理复杂的数据类型,确保可重复性并推动科学突破 ...
0 0 0 2025/05/26 arXiv:2503.24047v2 timturing
寻找图像之间的对应关系是计算机视觉中的一个基本问题。在本文中,我们表明在没有任何明确监督的情况下,图像扩散模型中出现了对应关系。我们提出了一种简单的策略,从扩散网络中提取这种隐式知识作为图像特征,即扩散特征(DIFT),并使用它们来建立真实图像之间的对应关系 ...
0 0 0 2025/05/26 arXiv:2306.03881v2 assvga
本文探讨了想法,并为特定于物理特定的大规模AI模型的开发和评估提供了潜在的路线图,我们称之为大型物理模型(LPMS)。这些模型基于基础模型(例如大型语言模型(LLM)(接受广泛数据训练)的基础模型,旨在满足物理研究的需求。 LPM可以独立运行,也可以作为集成框架的一部分 ...
0 0 0 2025/05/26 arXiv:2501.05382v1 timturing
尽管全球对大型语言模型(LLMS)的需求不断增长,这些模型为来自不同语言背景的用户提供服务,但大多数尖端的LLM仍以英语为中心。这会在跨语言中造成性能差距,从而限制了非英语扬声器对高级AI服务的访问。当前增强多语言功能的方法在很大程度上取决于数据驱动的培训技术,例如多语言指令调整或持续的预训练 ...
0 0 0 2025/05/26 arXiv:2410.04407v1 UUU

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)