保留网络(RETNET)代表神经网络体系结构的重大进步,为 Transformer 提供了有效的替代方案。尽管变形金刚依靠自我注意力来建模依赖性,但由于二次复杂性,它们处理长序列时,它们的记忆成本高和可伸缩性有限。为了减轻这些局限性,Retnet引入了一种保留机制,该保留机制将复发的诱导性偏置与全球依赖依赖性建模统一 ...
局部全球注意模型最近已成为标准 Transformer 的引人注目的替代方案,有望提高训练和推理效率。但是,窗口尺寸的关键选择给出了帕累托的权衡:较大的窗户保持性能类似于全部关注,但在短上下文的情况下提供了最小的效率提高,而较小的窗户可以导致性能退化。当前的模型,例如Gemma2和Mistral,采用了保守的窗户尺寸(e ...
为了推进时间序列预测(TSF),已经提出了各种方法来提高预测准确性,从统计技术到数据驱动的深度学习体系结构。尽管它们有效,但大多数现有的方法仍然遵守一种快速思考的范式,以提取历史模式并将其映射到未来的价值观中,因为其核心建模哲学,缺乏结合中间时间序列推理的明确思维过程。同时,出现了缓慢思考的LLM(e ...
分子表示学习对于许多与药物相关的应用是基础。大多数现有的分子预训练模型在使用单分子模态(微笑或图表表示)方面受到限制。为了有效利用这两种模式,我们认为捕获微笑和图之间的细粒“语义”至关重要,因为微妙的序列/图差可能会导致相反的分子特性 ...
人工智能(AI)已成为现代安全解决方案不可或缺的一部分,因为它具有学习非常复杂的功能和处理“大数据”的能力。但是,当信任模型预测至关重要时,成功的AI模型缺乏解释性和可解释性是一个关键的绊脚石。这导致人类干预,进而导致延迟的反应或决策 ...
最近的研究表明,深层生成扩散模型中的脱氧过程暗中学习并记住了数据分布中的语义信息。这些发现表明,捕获更复杂的数据分布需要更大的神经网络,从而导致计算需求大幅增加,进而成为扩散模型的训练和推断的主要瓶颈。为此,我们介绍了GMEM:一种用于超高生成模型的模块化方法 ...
已经证明,经过思考链(COT)和循环 Transformer 可以通过递归增加计算步骤的数量来提高推理任务的绩效,并理论上提高表达性。但是,它们的比较能力仍然不太了解。在本文中,我们对它们各自的优势和局限性进行正式分析 ...
多模式大语模型(MLLM)在一般视觉任务中表现出了令人印象深刻的表现。但是,最近的研究暴露了其空间推理能力的关键局限性。空间推理的这种缺乏显着限制了MLLM与物理世界有效互动的能力,从而限制了其更广泛的应用 ...
大型语言模型(LLMS)在各种自然语言处理任务中表现出了出色的表现。但是,如何全面,准确地评估其绩效成为要解决的紧迫问题。本文介绍了Gaokao Bench,这是一种直观的基准,该基准采用了中国Gaokao考试的问题作为测试样本,包括主观和客观问题。为了与人类检查方法保持一致,我们设计了一种基于零摄影设置的方法来评估LLM的性能 ...
检索增强的生成(RAG)系统依靠检索模型来识别相关的上下文和回答生成模型以利用这些上下文。 However, retrievers exhibit imperfect recall and precision, limiting downstream performance.我们介绍了RAG-RL,这是一种答案生成模型,不仅培训了为了产生答案,还可以识别并引用相关信息,从较大的检索到的上下文中,从而改变了将相关文档从猎犬到答案生成器的一些负担 ...