大型语言模型(LLM)在各种任务中都表现出了非凡的功能,但是由于需要深入的专业知识,它们在专业领域的应用仍然具有挑战性。通过无缝集成外部知识基础,可以将检索授课的生成(RAG)作为一种有前途的解决方案来定制专业领域的LLM,从而在推理过程中实现了对特定于领域的专业知识的实时访问。尽管具有基于扁平文本检索的传统抹布系统的潜力,但仍面临三个关键挑战:(i)在专业环境中的复杂查询理解,(ii)跨分布式来源的知识集成困难,以及(iii)系统效率瓶颈 ...
从人类反馈中学习(RLHF)已被证明有效地增强了大语言模型的指导跟踪功能;但是,它在跨模式域中仍然没有被忽视。随着模式的数量增加,将全模式模型与人类意图保持一致(例如教学)成为一个紧迫的挑战。在这项工作中,我们首次尝试微调全模式模型(i ...
大型语言模型(LLM)正在转变人工智能,发展为具有自主计划和执行的任务导向的系统。 LLMS的主要应用之一是对话AI系统,该系统必须导航多转对话,集成了特定于域的API并遵守严格的策略约束。但是,评估这些代理仍然是一个重大挑战,因为传统方法无法捕获现实世界相互作用的复杂性和可变性 ...
鉴于所讨论的合同和条款应属于的条款类型,该条款建议是将条款推荐给法律合同的问题。由于对法律合同的生成没有太多的工作,因此提出了这一问题作为朝着更大的合同生成问题迈出的第一步。作为一个开放式的文本生成问题,此问题的区别特征在于法律语言的性质作为跨语言和特定类型条款中文本内容的相似相似性 ...
小说视图合成(NVS)方法在巨大的场景重建中起着至关重要的作用。但是,这些方法在很大程度上取决于密集的图像输入和延长的培训时间,从而使它们在计算资源受到限制的情况下不合适。此外,在巨大的环境中,很少有射击方法通常与重建质量差的差异很差 ...
多模态大语言模型(MLLM)由于其强大的多模态理解能力而受到广泛关注。然而,现有的工作严重依赖于特定于模态的编码器,这些编码器通常在架构上有所不同,并且仅限于常见的模态。在本文中,我们提出了 OneLLM,这是一种使用统一框架将八种模式与语言对齐的 MLLM ...
我们提出了一种新型的自动建模方法,用于语音合成,将各种自动编码器(VAE)与多模式潜在空间和使用高斯混合模型(GMM)作为条件概率分布相结合。与以前依赖残留向量量化的方法不同,我们的模型利用了VAE潜在空间的连续语音表示,从而大大简化了训练和推理管道。我们还引入了一种随机的单调对准机制来强制执行严格的单调对准 ...
最近在自动驾驶方面的突破已经彻底改变了车辆对周围环境的看法和互动方式。特别是,世界模型已成为一项Linchpin技术,提供了整合多传感器数据,语义提示和时间动态的驱动环境的高保真表示。这样的模型统一了感知,预测和计划,从而使自主系统能够在复杂且通常是不可预测的条件下做出快速,明智的决定 ...
自我监督的单眼深度估计(DE)是一种学习深度的方法,而无需昂贵的深度地面真理。但是,它经常在移动物体上挣扎,这些物体违反了训练期间的静态场景假设。为了解决这个问题,我们基于观察到的观察到,在室外场景中大多数移动的物体都与地面联系,我们引入了一种粗到精细的训练策略,该策略利用了地面接触 ...
基于对比度学习(CL)的推荐系统在异质图(HG)的背景下获得了突出,因为它们可以增强跨不同观点的表示的一致性。但是,现有的框架通常忽略了汞中的用户项目相互作用受到多种潜在意图的约束(例如, ...