GPT-4o 等模型可以通过语音与大型语言模型 (LLM) 进行实时交互,与传统的基于文本的交互相比,显着增强了用户体验。然而,如何基于开源LLM构建语音交互模型仍缺乏探索。为了解决这个问题,我们提出了 LLaMA-Omni,这是一种新颖的模型架构,旨在与 LLM 进行低延迟和高质量的语音交互 ...
0 0 0 2025/05/15 arXiv:2409.06666v2 zephon
本文介绍了单眼深度估计挑战(MDEC)的第四版的结果,该结果着重于对Syns-Patches Benchmark的零射门概括,Syns-Patches Benchmark是一个具有自然和室内环境中具有挑战性的环境的数据集。在此版本中,我们修改了评估协议,以使用两个自由度的最小二乘对齐方式来支持差异和仿射不变的预测。我们还修改了基线,并包括流行的现成方法:深度任何V2和Marigold ...
0 0 0 2025/05/15 arXiv:2504.17787v1 DECEM
空间智能是体现AI的关键组成部分,促进机器人了解并与环境互动。尽管最近的进步增强了VLM感知对象位置和位置关系的能力,但它们仍然缺乏精确理解对象方向的能力 - 对于涉及细粒度操作的任务的关键要求。解决此限制不仅需要几何推理,而且还需要一种表达和直观的代表方向 ...
0 0 0 2025/05/15 arXiv:2502.13143v1 gonghaibin
蒙面的图像建模表现出巨大的潜力,可以消除培训大规模视觉 Transformer 的渴望标签问题,从而在各种下游任务上取得了令人印象深刻的性能。在这项工作中,我们在重新审视现有方法后提出了掩盖图像建模的统一视图。在统一的视图下,我们引入了一种简单而有效的方法,称为MaskDistill,该方法从掩盖位置的教师模型中重建了标准化的语义特征,以损坏的输入图像进行调节 ...
0 1 0 2025/05/15 arXiv:2210.10615v1 韩池
低级适应性(LORA)已成为大型语言模型(LLMS)的流行参数效率微调(PEFT)方法,但它仍然引起了鲜明的开销,并且在多任务场景中受到参数干扰的影响。我们建议使用减少干扰(Lori)的洛拉(Lora),这是一种简单而有效的方法,可以将投影矩阵$ a $冻结,因为随机预测,并使用特定于任务的掩码对矩阵$ b $散布。这种设计大大减少了可训练参数的数量,同时保持了强大的任务性能 ...
0 1 1 2025/05/15 arXiv:2504.07448v1 jackson118
投机解码是一种强大的技术,它通过利用轻量级投机性草案模型来加速大型语言模型(LLM)推断。但是,由于训练和推理之间的不对对准,现有的设计遭受了性能的影响。最近的方法试图通过采用多步培训策略来解决这个问题,但是不同培训步骤的复杂输入使模型草案更难收敛 ...
0 0 0 2025/05/15 arXiv:2502.16880v2 jessiewei7
使用传统的3D建模工具来创建针对用户规格的复杂3D场景的创建一直是一项繁琐而艰巨的任务。尽管某些开创性方法已经实现了自动的文本到3D代,但它们通常仅限于小型场景,并且对形状和纹理的控制有限。我们介绍了Scenecraft,这是一种新的方法,用于生成详细的室内场景,该场景遵循用户提供的文本描述和空间布局偏好 ...
0 0 0 2025/05/15 arXiv:2410.09049v3 wonglliam
现代大型语言模型使用固定的 Token 器来有效地压缩从源域中绘制的文本。但是,将相同的 Token 施加到新的目标域通常会导致劣质的压缩,更昂贵的推断和降低语义一致性。为了解决这种缺陷,我们引入了稀疏的sndhorn Token 翻译(S2T2) ...
0 0 0 2025/05/15 arXiv:2411.00593v2 snowpigppp

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)