最近,二次运动在空中运输和传递中引起了很大的关注。在这些情况下,对外力的准确估计与6个自由度(DOF)姿势一样必不可少,因为它对于计划和控制车辆至关重要。为此,我们提出了一个紧密耦合的视觉惯性动力学(VID)系统,该系统同时估算了与6 DOF姿势一起应用于四极管的外力 ...
0 0 0 2025/03/19 arXiv:2011.03993v2 kekeabab
基于得分的扩散模型最近已成为各种数据模式的最新生成模型。但是,尚不清楚如何适应这些模型以生成长的多元时间序列。将时间序列视为基本连续过程的离散化,我们引入了Sigdiffusion,这是一个在数据的对数签名嵌入中运行的新型扩散模型 ...
0 0 0 2025/03/19 arXiv:2406.10354v2 seven_wood
提示方法被视为几乎没有自然语言处理的关键进展之一。关于提示从基于离散 Token 的``硬提示''转移到连续``软提示''的最新研究,这些提示将可学习的向量作为伪提示,并实现更好的性能。尽管显示出有希望的前景,但观察到这些软宣传的方法在很大程度上依赖良好的初始化来生效 ...
0 0 0 2025/03/19 arXiv:2209.11486v4 15966829631
推断缩放率具有前所未有的推理能力,并以强化学习为引发复杂推理的核心技术。但是,隐藏了最先进的推理LLM的关键技术细节(例如在OpenAI O1博客和DeepSeek R1技术报告中),因此社区仍然很难重现其RL培训结果。我们建议$ \ textbf {d} $ ecoupled剪辑和$ \ textbf {d} $ ynamic s $ \ textbf {a} $ mpling $ \ text ...
0 1 0 2025/03/19 arXiv:2503.14476v1 jesson
当前的大型语音语言模型主要是基于语义 Token ,该语义 Token 是根据语义模块和声学合成范式的自我监督的学术表示和声音 Token 的离散化。但是,语义 Token 丢弃了对天然口语交流很重要的扬声器的副语言属性,而基于迅速的语义 Token 的声学综合在恢复副语言细节和牢固性问题方面受到限制,尤其是在提示与目标之间存在域间隙时。本文统一了两种类型的 Token ,并提出了Unicodec ...
0 0 0 2025/03/19 arXiv:2503.12115v1 wenzhanwujian
理解音频(包括语音,非语音声音和音乐)的能力对于AI代理人与世界有效互动至关重要。我们提出了MMAU,这是一种新颖的基准测试,旨在评估需要专家级知识和复杂推理的任务的多模式音频理解模型。 MMAU包括10K精心策划的音频剪辑,以及涵盖语音,环境声音和音乐的人类宣传的自然语言问题和答案 ...
0 0 0 2025/03/19 arXiv:2410.19168v1 z520520115
基础模型(FMS)已用于生成合成公共数据集,以解决每个客户使用唯一的模型体系结构的异质联合学习(HFL)问题。但是,在HFL上下文中并未对整合FMS的漏洞,尤其是针对后门攻击的漏洞。在本文中,我们引入了一种新型的HFL后门攻击机制,该机制规避了对客户妥协或持续参与FL过程的需求 ...
0 0 0 2025/03/19 arXiv:2311.18350v1 chenzhuo-wang
单个完全卷积神经网络(FCN)如何在对象检测中执行?我们介绍了densebox,这是一个统一的端到端FCN框架,可以通过图像的所有位置和尺度直接预测边界框和对象类的信心。我们的贡献是两个方面。首先,我们表明,如果仔细设计和优化,单个FCN可以非常准确,有效地检测到多个不同的对象 ...
0 0 0 2025/03/19 arXiv:1509.04874v3 lcaiwen

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)