我们提供Voxtral Mini和Voxtral Small,两个多模式音频聊天模型。 Voxtral经过培训,可以理解语音和文本文档,从而在各种音频基准中实现了最先进的性能,同时保留了强大的文本功能。 Voxtral Small的表现胜过许多封闭式型号,同时足够小,可以在本地运行 ...
0 0 0 2025/07/25 arXiv:2507.13264v1 odenkkk
物体检测,特别是开放词汇物体检测,在环境监测、自然灾害评估和土地利用规划等地球科学中发挥着至关重要的作用。然而,现有的开放词汇检测器主要针对自然世界图像进行训练,由于存在显着的数据域差距,很难推广到遥感图像。因此,本文旨在推动遥感领域开放词汇目标检测的发展 ...
0 0 0 2025/07/25 arXiv:2408.09110v3 per
本文介绍了一项有关使用多模式生成人工智能(Genai)和自回归大型语言模型(LLMS)的深入调查,以了解人类运动的理解和产生,从而有见识新兴方法,体系结构及其推动现实和多样性运动合成的潜力。本研究专门关注文本和运动方式,研究文本描述如何指导复杂的,类人类运动序列的产生。本文探讨了各种生成方法,包括自回旋模型,扩散模型,生成的对抗网络(GAN),变异自动编码器(VAE)和基于 Transformer ...
0 0 0 2025/07/25 arXiv:2506.03191v1 xytian
尽管大型语言模型 (LLM) 因其卓越的功能而得到广泛应用,但已被证明容易受到后门攻击。这些攻击通过毒害训练样本和全参数微调,将有针对性的漏洞引入 LLM。然而,这种后门攻击是有限的,因为它们需要大量的计算资源,特别是随着 LLM 规模的增加 ...
0 0 0 2025/07/24 arXiv:2409.17946v4 chenzhuo-wang
推荐系统通常会遇到嘈杂的互动,例如意外点击或受欢迎程度偏见。现有的denoising方法通常会在其交互中识别用户的意图,并过滤掉偏离假定意图的嘈杂交互。但是,他们忽略了被认为嘈杂的互动仍然可以帮助模型培训,而某些``清洁''互动几乎没有学习价值 ...
0 0 0 2025/07/24 arXiv:2505.22057v1 plain
最近,大型语言模型(LLM)显着改善了文本到SQL系统的性能。然而,许多最先进的方法(SOTA)方法忽略了系统鲁棒性的关键方面。我们的实验表明,尽管LLM驱动的方法在标准数据集上表现出色,但是当面对对抗性扰动时,它们的准确性显着损害 ...
0 0 0 2025/07/24 arXiv:2412.12522v1 qzw
国际数学奥林匹克运动会(IMO)提出了需要深刻洞察力,创造力和正式推理的独特挑战性问题。尽管大型语言模型(LLMS)在数学基准(例如AIME)上表现良好,但它们在奥林匹克级任务中挣扎。我们使用Google的双子座2 ...
0 0 0 2025/07/24 arXiv:2507.15855v2 ray075hl
在不同的成像方式上建立致密的解剖对应是为众多医学图像分析研究和图像引导的放射疗法而进行的基础但具有挑战性的程序。现有的多模式图像注册算法依赖于基于统计的相似性度量或局部结构图像表示。然而,前者对局部变化的噪声很敏感,而后者的歧视性不足以应对多模式扫描中的复杂解剖结构,从而在确定各种方式的扫描中的解剖学对应性时歧义性 ...
0 0 0 2025/07/24 arXiv:2402.18933v2 zfk666

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)