视觉是驾驶员监测系统(DMS)的最丰富,最具成本效益的技术,尤其是在最近的深度学习成功(DL)方法之后。目前,缺乏足够大且全面的数据集是DMS开发进步的瓶颈,这对于从SAE Level-2到SAE级别3级别的自动驾驶至关重要。在本文中,我们介绍了驱动程序监视数据集(DMD),这是一个广泛的数据集,其中包括真实和模拟的驾驶场景:分散注意力,凝视分配,嗜睡,手动相互作用和上下文数据,在41小时的RGB ...
0 0 0 2025/06/16 arXiv:2008.12085v1 13366395289
我们研究了具有开放词汇的多域对话状态跟踪(DST)的问题。现有方法利用了Bert编码器和基于复制的RNN解码器,编码器可以预测状态操作,而解码器会生成新的插槽值。但是,在如此堆叠的编码器结构中,操作预测目标仅影响伯特编码器,而价值生成目标主要影响RNN解码器 ...
0 0 0 2025/06/16 arXiv:2010.14061v2 oriyiyi
分布(OOD)概括对于现实世界中部署的机器学习模型至关重要。但是,实现这一目标在根本上可能具有挑战性,因为它需要能够在不同领域或环境中学习不变特征的能力。在本文中,我们提出了一个新型的框架hypo(helferspherical ood概括),该框架可以在超级球形空间中学习域不变的表示 ...
0 0 0 2025/06/16 arXiv:2402.07785v3 15966829631
域的适应(DA)受益于严格的理论著作,该著作研究了其有见地的特征和各个方面,例如学习领域不变的表示及其权衡 ...
0 0 0 2025/06/16 arXiv:2111.13822v1 15966829631
我们介绍了Partcrafter,这是第一个结构化的3D生成模型,该模型共同综合了与单个RGB图像的多个语义上有意义和几何不同的3D网格。与现有的产生整体3D形状或遵循两个阶段管道的方法不同,即 ...
0 0 0 2025/06/16 arXiv:2506.05573v1 haizeiyy
大型语言模型(LLMS)表现出令人印象深刻的能力,但缺乏强大的时间智能,努力将有关过去的推理与未来的预测和可行一代相结合。同时,现有方法通常针对孤立的时间技能,例如回答过去事件或基本预测的问题,并表现出较差的概括,尤其是在处理超越知识截止的事件或需要创造性的预见时。为了解决这些限制,我们介绍了\ textit {time-r1},这是第一个赋予中等尺寸(3B参数)LLM具有全面时间能力的框架:理解 ...
0 0 0 2025/06/16 arXiv:2505.13508v2 pkayzhang
整体3D场景理解,共同建模几何形状,外观和语义,对于增强现实和机器人相互作用等应用至关重要。现有的前馈3D场景理解方法(例如 ...
0 0 0 2025/06/16 arXiv:2506.09565v2 陆三七
我们提出了ACDIT,这是一种新型的自动回归块条件扩散 Transformer ,它创新地结合了自回归和扩散范式,用于建模连续的视觉信息。通过引入一个宽阔的自动回归单元,ACDIT绕过了离散 Token 化的局限性在 Token 自动化和完整序列扩散之间提供了灵活的插值。每个块的生成作为条件扩散过程,以先前的块为条件 ...
0 0 0 2025/06/16 arXiv:2412.07720v2 xiewende

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)