引入了低复杂性8点正交近似DCT。提出的转换不需要乘法或位移动操作。派生的快速算法仅需要14个添加,小于任何现有的DCT近似 ...
最近,大型推理模型(LRMS)(例如DeepSeek-R1)的推理能力通过缓慢的思考过程看到了显着的进步。尽管取得了这些成就,但LRM的大量计算需求带来了巨大的挑战。相反,与LRMS相比,通常从较大的推理模型(SRMS)(SRMS)提供了更高的效率,并且可以表现出独特的功能和认知轨迹 ...
Self-driving vehicles are a maturing technology with the potential to reshape mobility by enhancing the safety, accessibility, efficiency, and convenience of automotive transportation. Safety-critical ...
文档结构化提取(DSE)旨在从原始文档中提取结构化内容。尽管出现了许多DSE系统,但他们的统一评估仍然不足,这极大地阻碍了该领域的进步。这个问题主要归因于现有的基准范式,这些基准范式表现出碎片和局部特征 ...
受限的解码,一种用于在语言模型输出上强制约束的技术,提供了一种控制文本生成的方法,而无需重新训练或建筑修改。但是,它的应用程序通常仅限于使用户访问下一言发行的模型(通常是通过SoftMax Logits),这对Blackbox大语言模型(LLMS)构成了限制。本文介绍了素描引导的约束解码(SGCD),这是一种针对BlackBox LLM的约束解码的新方法,该方法无需访问BlackBox LLM的逻 ...
Transformer 架构在各种模型中占主导地位。作为 Transformer 的核心,注意力的计算复杂度为 O(N^2),而线性变换的计算复杂度为 O(N)。当处理大序列长度时,注意力成为主要耗时的组成部分 ...
在不忘记过去任务的情况下不断学习的能力是人工学习系统的所需属性。在人工神经网络中实现此类学习的现有方法通常依赖网络增长,基于重要性的重量更新或从内存中重播旧数据。相比之下,我们提出了一种新颖的方法,即神经网络通过朝着正交方向采取梯度步骤来学习对过去任务很重要的梯度子空间来学习新任务 ...
大型语言模型(LLM)的发展经常面临挑战,这是由于对人类反馈(RLHF)框架的强烈依赖人类注释者的依赖,或者与自我教学范式相关的频繁且昂贵的外部查询。在这项工作中,我们转向加强学习(RL) - 但有所不同。在指令数据培训之后,我们与典型的RLHF有所不同,该RLM可以通过RL直接生成仅用于微调的基础指令数据集 ...