我们介绍了Baichuan-Audio,这是一种端到端的音频模型,无缝地集成了音频理解和发电。它具有文本引导的对齐语音生成机制,从而实现了与理解和发电能力的实时语音互动。 Baichuan-Audio利用了预先训练的ASR模型,然后以12个帧速率进行多重编码书的语音离散化 ...
0 0 2 2025/02/25 arXiv:2502.17239v1 wenzhanwujian
最新的音乐Lemlm的最新进展已取得了极大的提高,该音乐分别包括三个LMS的层次结构,用于语义,粗音和精美的声学模型。但是,使用MusicLM进行抽样需要一个一个一个一个一个一个,一个一个一个一个一个,以获取细粒度的声音 Token ,使其计算昂贵且对实时生成非常昂贵。具有与Musiclm相当的质量的高效音乐发电仍然是一个重大挑战 ...
0 0 0 2025/02/25 arXiv:2305.15719v1 myzeng
我们介绍了一种新颖的方法,通过将特定于任务的嵌入对齐方式集成到检索功能增强的生成(RAG)框架中,从而增强了从Fortran为C ++的跨语言代码翻译。与传统的检索方法使用通用嵌入不可知论的下游任务不同,我们的策略将检索模型直接与最大化翻译质量的目的保持一致,该目标是由CodebleU Metric量化的。这种对齐可确保嵌入对于特定代码翻译任务上具有语义和句法有意义 ...
0 0 0 2025/02/25 arXiv:2412.05159v1 15966829631
在本文中,我们探讨了一个新颖的框架Egiinet(明确指导的信息交互网络),这是一个观看引导点云完成(VIPC)任务的模型,该任务旨在从具有单个视图图像的部分范围内恢复部分云。与以前依赖于输入图像的全局语义的方法相比,Egiinet通过利用完成任务的几何性质有效地结合了两种方式的信息。具体而言,我们提出了一种明确指导的信息交互策略,该策略由模态对准支持点云完成 ...
0 0 0 2025/02/25 arXiv:2407.02887v3 liushibo
捕获和存储图像时,设备不可避免地会引入噪音。降低这种噪音是一项关键任务,称为图像denoising。深度学习已成为图像denoising的事实上的方法,尤其是在基于 Transformer 的模型的出现中,这些模型已经在各种图像任务上取得了显着的最新结果 ...
0 0 0 2025/02/25 arXiv:2303.13132v1 jiajia233
在本文中,我们提出了一个多模式移动遥控系统,该系统由基于新型的基于视觉的手姿势回归网络(Transteleop)和一种基于IMU的ARM跟踪方法组成。 Transteleop通过低成本深度摄像头观察人的手,不仅生成关节角度,还可以通过图像到图像的翻译过程生成配对机器人手摆姿势的深度图像。基于按键的重建损失探讨了人与机器人手之间的外观和解剖结构的相似之处,并丰富了重建图像的局部特征 ...
0 0 0 2025/02/25 arXiv:2003.05212v1 odenkkk
扩散模型在图像和视频生成中都表现出了显着和强大的能力。为了获得对生成的结果的更大控制,研究人员引入了其他体系结构,例如ControlNet,适配器和Referencenet,以整合条件控制。但是,当前可控制的生成方法通常需要大量的其他计算资源,尤其是对于视频生成,并且在训练或表现出弱控制方面面临挑战 ...
0 0 0 2025/02/25 arXiv:2408.06070v2 gdutxgz
存储库级代码完成旨在在指定的存储库的上下文中生成未完成的代码段的代码。由于输入序列长度的限制,现有的方法主要依赖于检索增强的生成策略。但是,基于BM25的传统基于词汇的检索方法难以捕获代码语义,而基于模型的检索方法由于缺乏标记的培训数据而面临挑战 ...
0 0 0 2025/02/25 arXiv:2407.19487v1 15966829631

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)