最近,通过 Transformer 的引入,时间序列预测的性能得到了极大的提高。在本文中,我们提出了一个通用的多尺度框架,可应用于最先进的基于 Transformer 的时间序列预测模型(FEDformer、Autoformer 等)。通过使用共享权重迭代地细化多个尺度的预测时间序列、引入架构适应和专门设计的标准化方案,我们能够以最小的额外计算开销实现数据集和转换器架构的显着性能改进,从 5.5% 到 38.5%。通过详细的消融研究,我们展示了我们在架构和方法中的每项贡献的有效性。此外,我们对各种公共数据集的实验表明,所提出的改进优于相应的基线同行。我们的代码在此 https URL 中公开可用 ...
LLaMA 和 T5 等大型语言模型 (LLM) 通过微调在各种任务中表现出了卓越的性能。尽管低秩适应(LoRA)已经出现,可以在下游任务上以低廉的成本对这些 LLM 进行微调,但它们的部署仍然受到巨大的模型规模和计算成本的阻碍。训练后模型剪枝提供了一种压缩 LLM 的方法。然而,当前为 LLM 设计的剪枝方法与 LoRA 不兼容。这是因为它们在 LLM 上使用非结构化剪枝,阻碍了 LoRA 权重的合并,或者它们依赖于预训练权重的梯度来指导剪枝,这可能会带来显着的内存开销。为此,我们提出了 LoRAPrune,这是一个新框架,它以高度内存效率的方式提供准确的结构化剪枝模型。具体来说,我们首先设计了一个LoRA引导的剪枝准则,它使用LoRA的权重和梯度,而不是预训练权重的梯度来进行重要性估计。随后,我们将此标准集成到迭代修剪过程中,有效地去除冗余通道和头。大量的实验结果表明,我们的 LoRAPrune 比 LLaMA 系列模型上的现有方法具有优越的性能。在 50% 的压缩率下,LoRAPrune 表现出了优于 LLM-Pruner 的性能,在 WikiText2 上实现了 4.81 的困惑度降低,在 PTB 上实现了 3.46 的困惑度降低,同时还减少了 52.6% 的内存使用量。此外,LoRAPrune 还匹配了多个 LLM 的半结构剪枝,证明了其广泛的适用性。该代码可从此 https URL 获取 ...
受益于 Dense O2O 和 MAL 的简单性和有效性,DEIM 已成为实时 DETR 的主流训练框架,显着优于 YOLO 系列。在这项工作中,我们使用 DINOv3 功能对其进行了扩展,从而产生了 DEIMv2。 DEIMv2 涵盖从 X 到 Atto 的八种模型大小,涵盖 GPU、边缘和移动部署 ...
随着大型语言模型的采用增加以及对每个用户或每个任务模型定制的需求的增长,参数高效微调(PEFT)方法,例如低秩适应(LoRA)及其变体,会产生大量的存储和传输成本。为了进一步减少存储的参数,我们引入了“分而共享”范例,通过向量库全局共享参数,打破了跨矩阵维度、模块和层的低秩分解的障碍。作为 LoRA 范式的实例,我们提出的 VB-LoRA 将共享向量库中的 LoRA 的所有低秩矩阵与可微分的 top-k 混合模块组合在一起。与最先进的 PEFT 方法相比,VB-LoRA 实现了极高的参数效率,同时保持了可比或更好的性能。大量实验证明了 VB-LoRA 在自然语言理解、自然语言生成、指令调优和数学推理任务方面的有效性。在对 Llama2-13B 模型进行微调时,VB-LoRA 仅使用了 LoRA 存储参数的 0.4%,却取得了优异的结果。我们的源代码可以通过此 https URL 获取。此方法已合并到 Hugging Face PEFT 包中 ...
在本文中,我们确定并描述了表示工程(RepE)这一新兴领域,这是一种利用认知神经科学的见解来提高人工智能系统透明度的方法。 RepE 将群体层面的表征(而不是神经元或电路)置于分析的中心,为我们提供了监测和操纵深度神经网络 (DNN) 中高级认知现象的新方法。我们提供了 RepE 技术的基线和初步分析,表明它们为提高我们对大型语言模型的理解和控制提供了简单而有效的解决方案。我们展示了这些方法如何为广泛的安全相关问题提供牵引力,包括诚实、无害、权力追求等,展示了自上而下的透明度研究的前景。我们希望这项工作能够促进对 RepE 的进一步探索,并促进人工智能系统透明度和安全性的进步 ...
大型语言模型 (LLM) 日益强大的力量彻底改变了人们访问和利用信息的方式。值得注意的是, LLM 擅长执行细粒度的数据表示,这有助于精确检索信息。他们还根据外部参考生成高质量的答案,从而产生有用的知识。最近推出的 OpenAI O1 和 DeepSeek R1 等推理模型标志着又一次飞跃,突显了 LLM 在给出最终答案之前进行渐进式思考的能力。这一突破显着提高了解决复杂任务(例如编码和数学证明)的能力。受这一进展的启发,我们的目标是为检索模型开发类似的功能,这对于解决该领域的关键挑战有很大希望,包括多任务检索、零样本检索以及需要对复杂关系进行强化推理的任务。出于这个动机,我们提出了一种称为 O1 Embedder 的新颖方法,它在检索目标文档之前为输入查询生成有用的想法。为了实现这一目标,我们攻克了两个技术难点。首先,我们设计了一个数据合成工作流程,通过 LLM 专家的初步想法创建 O1 Embedder 的训练信号,然后使用检索委员会对其进行完善。其次,我们优化了训练过程,使预训练模型能够联合微调,通过行为克隆产生检索思想,并通过对比学习进行密集检索。我们的方法通过综合实验进行评估,在 12 个流行数据集(涵盖域内和域外场景)中实现了实质性改进。这些结果凸显了 O1 Embedder 卓越的准确性和通用性,为下一代 IR 基础模型的开发铺平了道路 ...
规划代表了智能体的一项基本能力,需要全面的环境理解、严格的逻辑推理和有效的顺序决策。虽然大型语言模型 (LLM) 在某些规划任务中表现出了卓越的性能,但它们在该领域的更广泛应用值得进行系统研究。本文对基于 LLM 的规划进行了全面回顾。具体来说,本次调查的结构如下:首先,我们通过介绍自动化规划的基本定义和类别来建立理论基础。接下来,我们对当代基于 LLM 的规划方法进行详细的分类和分析,将其分为三种主要方法:1)将 LLM 与其他规划组件相结合的外部模块增强方法,2)基于微调的方法,涉及使用轨迹数据和反馈信号来调整 LLM 以提高其规划能力,以及 3)基于搜索的方法,将复杂的任务分解为更简单的组件,导航规划空间或增强解码策略以找到最佳解决方案。随后,我们系统地总结了现有的评估框架,包括基准数据集、评估指标以及代表性规划方法之间的性能比较。最后,我们讨论了基于 LLM 的规划的基本机制,并概述了这个快速发展的领域有前途的研究方向。我们希望这项调查能够成为激发创新和推动该领域进步的宝贵资源 ...
给定非结构化文本,大型语言模型 (LLM) 擅长回答简单(单跳)问题。然而,随着问题复杂性的增加, LLM 的表现会下降。我们认为这是由于理解复杂问题以及过滤和聚合原始文本中的非结构化信息所产生的开销。最近的方法试图通过将结构化知识三元组集成到原始文本中来减轻这种负担,旨在提供简化信息处理的结构化概述。然而,这种简单化的方法与查询无关,并且提取的事实由于缺乏上下文而含糊不清。为了解决这些缺点并使 LLM 能够轻松回答复杂(多跳)问题,我们建议使用上下文感知并经过提炼以包含查询相关信息的知识图(KG)。与最先进的 (SoTA) 方法相比,使用我们的压缩蒸馏 KG 作为 LLM 的输入,使我们的方法使用最多 $67\%$ 更少的标记来表示支持文档中存在的查询相关信息。我们的实验表明,在两个流行的基准数据集(HotpotQA 和 MuSiQue)上,SoTA 在多个指标(EM、F1、BERTScore 和 Human Eval)上取得了一致的改进 ...
环视系统(SVS)广泛应用于高级驾驶辅助系统(ADAS)。 SVS使用四个鱼眼镜头来监控车辆周围的实时场景。然而,为了系统的正常运行,需要准确的内在和外在参数估计。目前,内参标定可以利用棋盘算法进行流水线化,而外参标定还不成熟。因此,我们提出了一种特定的校准流程来稳健地估计外在参数。该方案以四个摄像机的驱动序列作为输入。它首先利用车道线来粗略估计每个相机的姿势。考虑到每个相机的环境条件差异,我们分别从两种方法中选择策略来准确估计外在参数。为了实现对前后摄像头的准确估计,我们提出了一种相互迭代线检测和位姿估计的方法。对于双边相机,我们通过最小化相邻相机地面投影之间的纹理和边缘误差来迭代调整相机姿态和位置。在估计外部参数之后,可以通过基于单应性的变换来合成环视图像。所提出的流程可以在真实驾驶环境中稳健地估计四个 SVS 相机外在参数。此外,为了评估所提出的方案,我们构建了一个环视鱼眼数据集,其中包含从不同真实交通场景获取的 40 个视频,32,000 帧。每个视频中的所有帧均使用车道注释及其 GT 外部参数进行手动标记。此外,其他研究人员可以使用这个环视数据集来评估他们的表现。该数据集即将推出 ...
我们将思维图作为支持复杂推理的新颖框架,并以基因集分析为例来揭示生物过程之间的语义关系。我们的框架因其能够提供对基因集更深入的理解而脱颖而出,基于与人类注释的余弦相似性,显着超过 GSEA 40.28%,超过 LLM 基线 5.38%。我们的分析进一步提供了对生物过程命名的未来方向以及对生物信息学和精准医学的影响的见解 ...