检索增强生成通过提供事实支持彻底改变了大语言模型 (LLM) 的输出。然而,它很难获取复杂推理问题的所有必要知识。现有的检索方法通常将参考文档划分为多个段落,并单独处理它们 ...
长篇文本多模式大型语言模型(MLLM)需要大量的计算资源来推断其多模式键值(KV)缓存的增长,以响应增加输入长度,挑战内存和时间效率。与仅管理文本上下文的单模式LLM不同,长篇小说MLLM的KV缓存包括来自具有时间和空间关系以及相关文本上下文的多个图像的表示。图像 Token 的优势意味着对LLMS的KV缓存的传统优化不适合多模式的长篇小写设置,并且没有以前的工作解决了这一挑战 ...
由于3D几何信息,尤其是在复杂的条件下(例如,弱光且暴露过度暴露),场景理解的最新进展从深度图受益匪浅 ...
尽管在静态蛋白质结构收集和预测方面取得了重大进展,但蛋白质的动态行为(它们最重要的特征之一)在先前的研究中已被很大程度上忽略了。该监督可以归因于动态蛋白质数据集的有限可用性,多样性和异质性。为了解决这一差距,我们建议通过整合动态数据和其他物理属性来增强现有著名的静态3D蛋白质结构数据库,例如蛋白质数据库(PDB) ...
目标条件(GC)政策学习通常会面临奖励的稀疏性,而在面对长马目标时,面临挑战。为了应对挑战,我们在离线设置中探索了基于技能的GC政策学习,其中从现有数据中获取技能,而长期目标的目标则分解为与这些技能保持一致的近期目标的序列。具体而言,我们介绍了针对应对受目标分配转移影响的长途GC任务而定制的“通过技能步骤抽象”框架(GLVSA)的“离线GC政策学习”(GLVSA) ...
事实证明,用自然语言模式提示预训练的语言模型对于自然语言理解( nlu)是有效的。然而,我们的初步研究表明,手动离散提示通常会导致性能不稳定 -例如 ...
随着LLM最近流行的趋势,对LLM安全培训的需求不断增加。在本文中,我们在简单的,无优化的攻击下研究了SOTA开源LLMS的脆弱性,我们称为$ \ textit {priming Attacks} $,易于执行并有效地绕过安全培训中的对齐。我们提出的攻击提高了Llama Guard衡量的有害行为的攻击成功率最高3美元 ...
vGamba: Attentive State Space Bottleneck for efficient Long-range Dependencies in Visual Recognition
有效地捕获长期依赖性对于视觉识别任务至关重要,但现有方法面临局限性。卷积神经网络(CNN)与受限制的接收场斗争,而视觉变形金刚(VIT)以高计算成本实现了全球环境和远程建模。州空间模型(SSM)提供了替代方案,但它们在视觉中的应用仍未得到充实 ...