我们介绍了Genie Invisioner(GE),这是一个统一的世界基金会机器人操纵平台,将政策学习,评估和模拟整合到一个视频基础框架中。 GE Base的核心是一个大规模的,指导条件的视频扩散模型,可捕获结构性潜在空间中现实世界机器人相互作用的空间,时间和语义动力学。 GE-ACT基于该基础,将潜在的表示通过轻巧的,流动匹配的解码器将可执行动作轨迹映射到可执行的动作轨迹,从而通过最小的监督实现 ...
0 0 0 2025/11/05 arXiv:2508.05635v3 rommelcyzyb
大型语言模型(LLM)促进了自动代码生成的热潮,引起了寄存器传输级(RTL)代码生成的极大关注。尽管使用自然语言生成 RTL 代码具有潜力,但由于自然语言表达和硬件设计意图之间存在巨大的语义差距,它仍然容易出错并且仅限于相对较小的模块。为了应对这些限制,我们提出了一种方法,通过高级综合 (HLS) 工具利用 C/C++ 生成硬件设计,从而减少语义差距 ...
0 0 0 2025/11/05 arXiv:2408.06810v1 chengzhiyuan1
在无线通信系统中,超低延迟和功耗等严格要求显着增加了对高效算法到硬件部署的需求。然而,算法设计和硬件实现之间仍然存在持续且巨大的差距。传统上,由于 MATLAB 等高级编程语言与 Verilog 等硬件描述语言 (HDL) 之间在内存访问模式、数据处理方式和数据类型表示方面存在根本性的不匹配,因此弥合这一差距传统上需要广泛的领域专业知识和耗时的手动开发 ...
0 0 0 2025/11/05 arXiv:2508.10904v2 chengzhiyuan1
扩散策略是学习端到端视觉运动机器人控制的强大技术工具。预计扩散策略具有可扩展性,这是深度神经网络的一个关键属性,通常表明增加模型大小将导致性能增强。然而,我们的观察表明 Transformer 架构(\DP)中的扩散策略难以有效扩展;即使是少量的增加层数也会降低训练效果 ...
0 0 0 2025/11/05 arXiv:2409.14411v2 15521327491
信号时态逻辑 (STL) 提供了一种对机器人和网络物理系统的复杂控制目标进行编码的便捷方法。最先进的 STL 轨迹合成基于混合整数凸规划 (MICP)。 MICP 方法是合理且完整的,但由于二进制变量数量呈指数级复杂性,其可扩展性有限 ...
0 0 0 2025/11/05 arXiv:2204.06367v2 hantao
现实世界的机器人系统必须在存在不确定性的情况下遵守安全要求。为了定义和衡量需求遵守情况,信号时态逻辑 (STL) 提供了一种数学上严谨且富有表现力的语言。然而,标准 STL 无法解释不确定性 ...
0 0 0 2025/11/05 arXiv:2511.00934v1 hantao
流式多说话者语音翻译是一项任务,不仅涉及以低延迟生成准确、流畅的翻译,还涉及识别说话者何时发生变化以及说话者的性别。说话者变化信息可用于为零样本文本转语音系统创建音频提示,而性别可以帮助在传统文本转语音模型中选择说话者配置文件。我们建议通过将说话人嵌入合并到基于转换器的流式端到端语音翻译模型中来解决流式说话人变化检测和性别分类问题 ...
0 0 0 2025/11/05 arXiv:2502.02683v1 feixiang_peng
生成多个不同的主题仍然是现有文本到图像扩散模型的挑战。复杂的提示往往会导致主题泄漏,导致数量、属性和视觉特征的不准确。防止受试者之间的泄漏需要了解每个受试者的空间位置 ...
0 0 0 2025/11/05 arXiv:2505.21488v1 dirkashin

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)