由于这些机器人的非线性,混合和高维质,因此很难实时计算稳定和最佳的控制动作。系统的混合性质引入了离散和连续变量的组合,这导致了数值最佳控制问题的问题。为了应对这些挑战,我们提出了一个分层体系结构,该体系结构将离散变量的选择和平滑模型预测控制器(MPC)分开 ...
0 0 0 2025/06/23 arXiv:2506.09979v1 yukun
由于观察/动作维度和系统动力学的差异,概括具有不同形态的不同腿部机器人的运动策略是一个关键挑战。在这项工作中,我们提出了一个新型的统一框架,将形态 - 静态生成扩散模型与通过强化学习(RL)优化的轻量级残留策略相结合的新型统一框架。扩散模型从不同的跨体数据集中捕获了形态不变的运动模式,从而改善了概括和鲁棒性 ...
0 0 0 2025/06/23 arXiv:2506.11470v1 yukun
深度学习表明了各种任务的有效性。但是,这些模型的致密和过度参数化的性质导致部署过程中的大量资源消耗。为了应对这个问题,重量修剪,特别是通过N:M弹力矩阵乘法,通过将密集的操作转换为半平等的操作提供了有效的解决方案 ...
0 0 0 2025/06/23 arXiv:2503.01253v2 libai
语言模型的持续发展导致了大规模架构的发展,这些体系结构在各种任务中都表现出了出色的性能。但是,这些模型具有巨大的计算和能源需求以及潜在的隐私影响。在这种情况下,大约0的小推理语言模型(SRLMS) ...
0 0 0 2025/06/23 arXiv:2506.13404v2 aaaa1
我们通过生成的图像进行思考,这是一种新颖的范式,从根本上讲,通过使它们能够通过自发产生的中间视觉思维步骤来使其能够在文本和视觉方式上本地思考,从而改变了大型多模型(LMMS)与视觉推理的互动方式。使用LMM的当前视觉推理限制在处理固定的用户提供的图像或仅通过基于文本的思考链(COT)进行推理。用生成的图像进行思考,可以解锁认知能力的新维度,模型可以主动构建中间的视觉思想,批评自己的视觉假设,并将它 ...
0 0 0 2025/06/23 arXiv:2505.22525v1 X.K
由于在各种组织环境中很快实施了生成的AI系统,因此仍然无法解决一个关键的挑战。尽管记忆组件(例如抹布,向量存储和LLM代理)的内存成分取得了重大进展,但这些系统仍然存在很大的内存限制。 AI Gen Workflows很少存储或反思做出决策的完整背景 ...
0 0 0 2025/06/23 arXiv:2506.05370v1 hanqiu
残留矢量量化(RVQ)已成为神经语音和音频编码的主要方法,提供了高保真压缩。但是,由于现实世界中的噪声,语音编码提出了额外的挑战,从而降低了压缩效率。标准编解码器均匀地分配位,浪费了比特率,这些噪声组件不导致可清晰度 ...
0 0 0 2025/06/23 arXiv:2506.16538v1 13724122396
由于固定的上下文窗口和弱长期依赖建模,多模式大型语言模型(MLLM)与长视频斗争。视频的现有检索效果生成(RAG)方法使用静态检索策略,从而导致效率低下,以实现简单的查询和复杂任务的信息丢失。为了解决这个问题,我们提出了Adavideorag,这是一个新颖的框架,该框架使用轻量级的意图分类器,基于查询复杂性动态调整检索粒度 ...
0 0 0 2025/06/23 arXiv:2506.13589v2 hynj

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)