基于 Transformer 的大型语言模型批判性地依靠KV缓存来在解码阶段有效处理扩展上下文。然而,KV缓存的大小随输入长度的成比例增长,随着解码的进展,内存带宽和容量都会为内存带宽和容量负担。为了应对这一挑战,我们提出了RocketKV,这是一种专门旨在减少DECODE阶段中KV CACHE的内存带宽和容量需求的无训练KV缓存策略 ...
加强学习(RL)在增强大语言模型(LLM)推理中的作用变得越来越重要。尽管RL在许多情况下取得了成功,但在改善LLM的推理方面仍然存在许多挑战。一个挑战是稀疏的奖励,这使得对RL的优化很难,因此需要大量数据样本 ...
多模式图像 - 纽带学习引起了人们的关注,但由于标记的数据有限,它面临挑战。虽然较早的工作已将自我监督的学习(SSL)应用于未标记的数据,但其任务不足的性质通常会导致学习下游任务的次优特征。组合标记和未标记数据的半监督学习(SEMISL)提供了有希望的解决方案 ...
有效的缩放和灵活的任务接口使大型语言模型能够在许多任务上脱颖而出。我们提出了Pali(Pathways语言和图像模型),该模型将这种方法扩展到语言和视觉的联合建模。帕利(Pali)基于视觉和文本输入生成文本,并且此接口以许多语言执行许多视觉,语言和多模式任务 ...
精确从数字化的3D牙科模型中细分牙齿的能力是计算机辅助正畸手术计划中的重要任务。迄今为止,基于深度学习的方法已被普遍用于处理此任务。最新的方法直接将3D输入的原始属性(即网状细胞的坐标和正常向量)训练,以训练一个单际网络进行完全自动化的牙齿分割 ...
本文将图像的变形与深度特征相结合。为此,图像被视为将图作为高维特征空间中的地图,并且在米勒,特鲁维,Younes和同事提出的变态模型中纳入了对结构敏感的各向异性流动正则化。对于此模型,提出了Riemannian路径能量的变异时间离散化,并证明了最小化该能量的离散地测地路路径的存在 ...
大语言模型(LLM)在许多任务上的性能受到了在预训练期间学到的知识并存储在模型参数中的知识的限制。低级适应性(LORA)是一种流行而有效的训练技术,用于更新LLM的特定于域的适应性。在这项研究中,我们研究了如何使用LORA将新事实纳入LLM,而不会损害先前学习的知识 ...
大型语言模型(LLMS),例如Llama,在各种任务中都表现出色。然而,当部署到法律或医学等特定领域时,这些模型仍然面临着特定于领域知识缺乏的挑战,并且能力不足以利用这些知识来解决与域相关的问题。在本文中,我们提出了一个新框架,以根据此框架将LLMS调整到特定领域,并建立法律领域LLM的律师Llama ...