我们从单个RGB图像中解决了人脸的3D重建。为此,我们提出了Pixel3DMM,这是一组高度一般的视觉 Transformer ,这些 Transformer 预测了每像素几何提示,以限制3D可变形面模型(3DMM)的优化。我们利用Dino Foundation模型的潜在特征,并引入量身定制的表面正常和紫外线坐标预测头 ...
0 0 0 2025/05/28 arXiv:2505.00615v1 rcc
GPT-4O的最新发布展示了端到端多模型的潜力,不仅在低潜伏期方面,而且还以丰富的情感来理解和产生表达性语音的能力。虽然开放研究社区未知细节,但它可能涉及大量的策划数据和计算,这两个数据都不容易访问。在本文中,我们介绍了BLSP-EMO(带有情感支持的引导语言言论预处理),这是一种开发端到端语音语言模型的新方法,能够在语音中理解语义和情感并产生善解人意的反应 ...
0 0 0 2025/05/28 arXiv:2406.03872v1 ka
当在各种情况下部署时,现有的学习模型通常表现出较差的概括。主要是由于数据的基础参考框架随部署环境和设置而变化。但是,尽管每种情况的数据都有其独特的参考框架,但其一代通常遵循相同的基础物理规则 ...
0 0 0 2025/05/28 arXiv:2504.08811v1 HeiHuZi
最近的代理框架和推理时间算法通常由于验证生成的计划或推理以及单个任务中实例的复杂性而遇到的复杂计划问题。这些任务的许多现有方法要么执行任务级验证,而无需考虑约束,要么应用推论时间算法而不适应实例级别的复杂性。为了解决这些局限性,我们提出了Plangen,这是一种模型不合时宜且易于扩展的代理框架,具有三个关键组件:约束,验证和选择剂 ...
0 0 0 2025/05/28 arXiv:2502.16111v1 lovebl2025
大型语言模型(LLM)被广泛用于口语理解(SLU)。最近的SLU模型直接通过将语音输入调整为LLM来处理音频,以获得更好的多模式学习。这些模型的关键考虑因素是文本和音频方式之间的跨模式对齐,这是LLM是否能够将语义含义与音频段相关联 ...
0 0 0 2025/05/28 arXiv:2505.19937v1 ka
自动语音识别(ASR)系统由于其独特的声学和语言可变性以及儿童语音数据集的可用性有限,导致转录错误率很高,因此与儿童言语相处。尽管ASR误差校正方法(AEC)方法改善了成人语音转录,但其对儿童语音的有效性仍未得到探索。为了解决这个问题,我们介绍了Chser,Chser是用于儿童语音的生成性语音错误校正(GENSEC)数据集,包括200K假设转录对,涵盖了各种年龄段和说话风格 ...
0 0 0 2025/05/28 arXiv:2505.18463v1 tonyhehahaha
可控场景的产生可以大大降低各种数据收集的成本,以实现自动驾驶。先前的工作将流量布局生成作为预测进度,通过一次或迭代预测下一帧来确定整个序列。但是,完全序列降级阻碍了在线反应,而后者的短视下一框架预测缺乏精确的目标状态指导 ...
0 0 0 2025/05/28 arXiv:2504.10485v1 zoe
我们介绍了基于物理模拟的机器人掌握计划的数据集,这是一个数据集。该数据集包含177m的并行jaw grasps,涵盖了来自262个不同类别的8872个对象,每个对象都标记为从物理模拟器获得的grasp结果 ...
0 0 0 2025/05/28 arXiv:2011.09584v1 18801130956

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)