我们提出了TICAM,这是一种使用单个广角深度摄像头的飞行时间内机舱监视数据集,用于车辆内部监视。我们的数据集解决了当前可用的车内机舱数据集的缺陷,从标记的类,记录的场景和提供注释方面;同时。我们记录了在开车时执行的详尽措施列表,并为它们提供了多模式标记的图像(DEPTH,RGB和IR),并为2D和3D对象检测,实例和语义分段以及RGB帧的活动注释提供了完整的注释 ...
0 0 0 2025/04/25 arXiv:2103.11719v2 13366395289
人类可以远程操作机器人来完成复杂的操纵任务。模仿学习已成为一个强大的框架,利用人类远程操作演示来教授机器人新技能。然而,学习策略的性能受到示范数据的质量、规模和多样性的瓶颈 ... ...
0 0 0 2025/04/25 arXiv:2309.13037v2 竹林风吹
推理模型的最新进展为OpenAI的O1和DeepSeek的R1举例说明了强调增强学习(RL)增强大语言模型(LLMS)的推理能力的重要潜力。但是,由于方法透明度有限,在不同领域中复制这些进步仍然具有挑战性。在这项工作中,我们提出了两阶段的历史采样策略优化(SRPO),它超过了Aime24和LiveCodeBench基准上DeepSeek-R1-Zero-32b的性能 ...
0 0 0 2025/04/25 arXiv:2504.14286v2 yijie
语音语言模型在产生逼真的语音方面已经显着提高,神经编解码器语言模型脱颖而出。但是,通常会忽略人类反馈与人类偏好相结合与人类偏好的整合。本文通过首先分析编解码器语言模型中的分布差距来解决这一差距,并强调了它如何导致培训和推理阶段之间的差异,从而对性能产生负面影响 ...
0 0 0 2025/04/25 arXiv:2404.05600v1 Du
尽管最近在图像恢复领域取得了重大进展,但最新方法(SOTA)方法的系统复杂性也在增加,这可能会阻碍方法的方便分析和比较。在本文中,我们提出了一个超过SOTA方法并且在计算上有效的简单基线。为了进一步简化基线,我们揭示了非线性激活功能,e ...
0 0 0 2025/04/25 arXiv:2204.04676v4 dsqi
最近的零射击文本到语音(TTS)系统面临着一个常见的困境:自回归(AR)模型的产生缓慢且缺乏持续时间可控性,而非自动回形(NAR)模型缺乏时间建模,通常需要复杂的设计。在本文中,我们介绍了一种新颖的伪自动回调(PAR)编解码器语言建模方法,该方法将AR和NAR建模统一。将AR的显式时间建模与NAR并行生成结合,在固定时间步长下生成动态长度跨度 ...
0 0 0 2025/04/25 arXiv:2504.10352v1 Du
大型语言模型(LLMS)在很大程度上依赖于高质量的培训数据,从而使数据评估对于优化模型性能至关重要,尤其是在预算有限的情况下工作时。在这项工作中,我们旨在提供第三方数据评估方法,以使数据提供商和模型开发人员受益。我们介绍了线性化的未来影响核(Linfik),该核心(LINFIK)评估了单个数据样本在改善训练过程中LLM性能方面的价值 ...
0 0 0 2025/04/25 arXiv:2503.01052v1 the_highflyer
在国内或工业环境中的人类指示执行任务的机器人基本上需要适应性和可靠性。由于其模块化和反应性,行为树(BT)作为这些场景的适当控制体系结构而出现。但是,现有的BT生成方法要么不涉及解释自然语言,也不能从理论上保证BTS的成功 ...
0 0 0 2025/04/25 arXiv:2405.07474v2 mencius

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)