准确地预测未来交通代理的轨迹对于自动驾驶至关重要。但是,由于轨迹分布的固有不平衡,自然数据集中的尾巴数据通常代表更复杂和危险的情况。现有研究通常仅依靠基本模型的预测误差,而不考虑长尾轨迹模式的多样性和不确定性 ...
将3D资产分割成其组成部分对于增强3D理解,促进模型再利用和支持各种应用(例如零件生成)至关重要。但是,当前的方法在处理复杂对象时面临限制,例如鲁棒性,并且无法完全自动化该过程。在本文中,我们提出了一个称为P3-SAM的天然3D可启示性零件分割模型,旨在将任何3D对象分割为组件 ...
我们提出了模态差距,这是多模式模型表示空间的有趣几何现象。具体而言,我们表明不同的数据模式(例如 ...
大型语言模型(LLM)在数学和编码等复杂的推理任务上表现出色,但是他们经常在幼儿毫不费力地执行的简单互动任务中挣扎。这种差异突出了声明知识(了解某事)和程序知识(知道如何做某事)之间的关键差距。尽管传统的加强学习(RL)代理可以通过环境互动获得程序知识,但它们通常是黑匣子,需要大量的培训数据 ...
社交媒体受欢迎程度预测是一项复杂的多模式任务,需要有效整合图像,文本和结构化信息。但是,当前的方法遭受视觉文本一致性不足的影响,并且无法捕获社交媒体数据中固有的跨质量相关性和层次模式。为了克服这些局限性,我们建立了一个多级框架,为结构增强和对比度学习引入了层次原型,以改善视觉文本对齐 ...
当前的对话生成方法通常需要完整的对话文本,然后才能产生一个不可分割的语音,其中包含所有声音,使其不适合交互式聊天;此外,它们遭受了不稳定的合成,不准确的说话者过渡和不连贯的韵律。在这项工作中,我们介绍了FireredTTS-2,这是一种用于多演讲者对话的长形式流式TTS系统,通过可靠的扬声器切换和上下文感知的韵律发出稳定的自然语音。一个新的12 ...
深击是现实的面部操纵,可以对安全,隐私和信任构成严重威胁。现有方法主要将此任务视为二进制分类,该分类使用数字标签或掩盖信号来训练检测模型。我们认为,这样的监督缺乏语义信息和解释性 ...
我们在左右对称框架中呈现纯线性的Seesaw机制,然后实现一种新型的瘦素发生场景,用于通过带电的Lepton Masses和光的MajoraNa Neutrino质量矩阵参数为宇宙Baryon不对称,直至总体上。通过相同的Yukawa耦合,充满镜子的lep镜的Lepton-number持续衰减可以产生三个存储在普通Lepton口味中的Lepton不对称性,而Lepton-number-violat ...