低秩适应 (LoRA) 广泛应用于文本到图像模型,用于准确再现特定元素,例如生成图像中的不同字符或独特样式。尽管如此,现有方法在有效组合多个 LoRA 方面面临着挑战,特别是随着要集成的 LoRA 数量的增长,从而阻碍了复杂图像的创建。在本文中,我们从以解码为中心的角度研究多 LoRA 组合 ...
大型语言模型 (LLM) 在各种语言相关任务(包括搜索引擎)中展示了卓越的零样本泛化能力。然而,现有的工作利用 LLM 的生成能力进行信息检索(IR),而不是直接的段落排名。 LLM 的预培训目标与排名目标之间的差异带来了另一个挑战 ...
在恶劣天气中可靠的操作对于部署安全自动驾驶汽车(AV)至关重要。可以通过融合来自标准AV传感器套件的数据来实现鲁棒性和可靠性(即 ...
传统银行在数字化转型方面面临重大挑战,这主要是由于传统系统限制和所有权分散所致。最近发生的事件表明,这种破碎经常导致表面事件的分辨率,使根本原因尚未得到解决,并导致反复出现的故障。我们介绍了一种新颖的方法来进行事后分析,将基于知识的Genai代理与“五个Whys”技术相结合,以检查问题描述并更改请求数据 ...
口语模型(SLM)旨在采用语音输入并产生口头响应。但是,当前的SLM缺乏在响应之前执行内部无言思维过程的能力。相比之下,人类通常在内部进行复杂的心理推理,使他们能够清晰,清晰地传达思想 ...
数据多样性对于大型语言模型的指导调整至关重要。现有研究探索了各种多样性感知的数据选择方法,以构建高质量数据集并增强模型性能。但是,精确定义和衡量数据多样性的基本问题仍然没有被忽视,这限制了对数据工程的明确指导 ...
图像和视频压缩的大多数现有方法在像素空间中执行转换编码,以减少冗余。但是,由于像素空间扭曲和人类感知之间的不对对准,这些方案通常会面临在超低比特率时达到高现实主义和高保真性的困难。为了解决这个问题,我们提出\ textbf {g} energiative \ textbf {l} atent \ textbf {c} oding(\ textbf {glc {glc})图像和视频压缩模型,称为glc-image-image-image and glc-video ...
随着深度学习的进步,大型语言模型(LLMS)及其多模式对应物,多模式大语言模型(MLLMS)在许多现实世界任务中都表现出非凡的性能。但是,MLLM面临着巨大的安全挑战,例如越狱攻击,攻击者试图绕过模型的安全结算以引起有害的反应。越狱对MLLM的攻击的威胁既来自LLM的固有漏洞和MLLMS处理的多个信息渠道 ...
我们研究了中文NER的晶格结构的LSTM模型,该模型编码了一系列输入字符以及与词典相匹配的所有潜在单词。与基于字符的方法相比,我们的模型明确利用单词和单词序列信息。与基于单词的方法相比,晶格LSTM不会遭受分割错误 ...
我们提供Voxtral Mini和Voxtral Small,两个多模式音频聊天模型。 Voxtral经过培训,可以理解语音和文本文档,从而在各种音频基准中实现了最先进的性能,同时保留了强大的文本功能。 Voxtral Small的表现胜过许多封闭式型号,同时足够小,可以在本地运行 ...