大型语言模型(LLMS)修剪旨在消除不重要的重量以进行推理加速,并且性能最小。但是,现有的方法通常会遭受性能损失,而没有全模型的稀疏性微调。本文介绍了Wanda ++,这是一个新颖的修剪框架,通过利用解码器块级\ textbf {regional}梯度来超越最新方法 ...
一个通信视频字幕的理想模型 - 预测视频中暂时性的字幕 - 应该能够处理长输入视频,预测丰富的,详细的文本描述,并在处理整个视频之前产生输出。但是,当前的最新模型会处理固定数量的下采样框架,并在观看整个视频后做出一个完整的预测。我们提出了一个由两个新颖组成部分组成的流式密集的视频字幕模型:首先,我们根据聚类传入 Token 提出了一个新的内存模块,该模块可以处理任意长的视频,因为内存的尺寸为固定尺 ...
指令跟踪是大型语言模型(LLM)的基本功能。随着LLM的能力不断提高,它们越来越多地理解处理现实场景中复杂的人类指令。因此,如何评价LLM的复杂指令跟随能力成为一个关键的研究问题... ...
有效使用测试时间计算的培训模型对于改善LLM的推理性能至关重要。当前方法主要通过在搜索轨迹上进行微调或以0/1结果奖励运行RL进行操作,但是这些方法是否有效地利用了测试时间计算?随着预算的改善,这些方法会继续扩展吗?在本文中,我们尝试回答这些问题。我们将优化测试时间计算作为元强制学习(RL)问题的问题形式化,该问题提供了用于支出测试时间计算的原则观点 ...
声音回波会降低语音通信系统中的用户体验,因此需要完全抑制。我们建议使用有效的卷积神经网络实时残留的声音回声抑制(RAES)方法。双对探测器被用作一项辅助任务,以在多任务学习的背景下提高RAE的性能 ...
$ \ mathbb {r}^d $的空间分区基础是大量重要的快速邻居搜索(NNS)算法。受到通用度量空间NN的最新理论工作的启发[Andoni,Naor,Nikolov,Razenshteyn,Waingarten Stoc 2018,2018年焦点2018],我们为构建空间分区开发了一个新的框架,以减少该问题,从而将问题降低到平衡图形分区。我们将这种通用方法与Kahip图分区器[Sanders ...
建立可以快速适应新环境的通才代理商是在数字和现实世界中部署AI的关键挑战。扩展当前代理体系结构是建造通才代理的最有效方法吗?我们提出了一种新颖的方法,可以在相对较小的数据集上预先培训相对较小的策略,并通过内在的学习将其调整为看不见的环境,而无需进行任何填充。我们的关键想法是,检索为快速适应提供了强大的偏见 ...
与传统资产相比,加密货币投资本质上很困难,需要整合来自各种方式的大量数据以及对复杂推理的需求。尽管已经采用了深度学习方法来应对这些挑战,但它们的黑盒本质引起了人们对信任和解释性的关注。最近,大型语言模型(LLMS)由于能够理解多模式数据并产生可解释的决策,因此在财务应用中显示了希望 ...