大型语言模型在各种任务中表现出了出色的表现,表现出迅速获得新技能的能力,例如通过文化学习(ICL)以最少的演示示例。在这项工作中,我们提出了一个综合框架,用于在大型多模型模型的背景下研究多模式ICL(M-ICL)。我们认为最好的开源多模型(e ...
0 0 0 2025/05/28 arXiv:2404.15736v2 Jooooe
在许多现实世界中,例如电力消耗计划和销售预测,时间序列预测(TSF)从根本上是必需的。在电子商务中,准确的时间序列销售预测(TSSF)可以显着提高经济利益。电子商务中的TSSF旨在预测数百万产品的未来销售 ...
0 0 0 2025/05/28 arXiv:2109.08381v2 zjyFrank
语音助手(例如Siri和Google Assistant)通常会单独建模音频和文本,从而导致语音信息丢失和增加的复杂性。最近通过端到端的语音模型(LLM)(SFT)培训的端到端语音大语言模型(LLM)的最新努力导致模型``忘记了''''来自文本LLMS的功能。我们的工作提出了一种替代性范围,用于培训语音LLM的替代性范围,而无需在未经教学的情况下进行授课,该范围是使用Text-honly llm  ...
0 0 0 2025/05/28 arXiv:2410.02678v1 ka
分布(OOD)检测对于现实世界中机器学习系统的可靠和安全部署至关重要。在过去的几年中,取得了巨大进展。本文介绍了对OOD检测的最新进展的首次回顾,并特别关注自然语言处理方法 ...
0 0 1 2025/05/28 arXiv:2305.03236v2 allez
训练后量化(PTQ)在压缩大型语言模型(LLMS)以超低成本中发挥了关键作用。但是,现有的PTQ方法仅着眼于处理一个层或一个块中的离群值,这忽略了块的依赖性,并导致低位设置中的严重性能降解。在本文中,我们提出了CBQ,这是一种基于跨块重建的LLMS的PTQ方法 ...
0 0 0 2025/05/28 arXiv:2312.07950v5 magicp
我们从单个RGB图像中解决了人脸的3D重建。为此,我们提出了Pixel3DMM,这是一组高度一般的视觉 Transformer ,这些 Transformer 预测了每像素几何提示,以限制3D可变形面模型(3DMM)的优化。我们利用Dino Foundation模型的潜在特征,并引入量身定制的表面正常和紫外线坐标预测头 ...
0 0 0 2025/05/28 arXiv:2505.00615v1 rcc
GPT-4O的最新发布展示了端到端多模型的潜力,不仅在低潜伏期方面,而且还以丰富的情感来理解和产生表达性语音的能力。虽然开放研究社区未知细节,但它可能涉及大量的策划数据和计算,这两个数据都不容易访问。在本文中,我们介绍了BLSP-EMO(带有情感支持的引导语言言论预处理),这是一种开发端到端语音语言模型的新方法,能够在语音中理解语义和情感并产生善解人意的反应 ...
0 0 0 2025/05/28 arXiv:2406.03872v1 ka
当在各种情况下部署时,现有的学习模型通常表现出较差的概括。主要是由于数据的基础参考框架随部署环境和设置而变化。但是,尽管每种情况的数据都有其独特的参考框架,但其一代通常遵循相同的基础物理规则 ...
0 0 0 2025/05/28 arXiv:2504.08811v1 HeiHuZi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)