大语言模型(LLM)的量化对于将其部署在具有有限的计算资源的设备上至关重要。与基本线性量化相比,高级量化算法提供了提高的性能,但它们通常需要高端图形处理单元(GPU),通常仅限于特定的深神经网络(DNN)框架,并且需要校准数据集。这种限制对在各种神经处理单元(NPU)和Edge AI设备上使用此类算法提出了挑战,这些设备具有多种模型格式和框架 ...
受到DeepSeek R1在没有人类反馈的情况下推理方面的成功启发的启发,我们使用倒计时游戏培训了一个3B语言模型,并使用纯强化学习。我们的模型在五个基准测试中的四个基准都优于基准,这表明超出其训练数据的概括得到了改善。值得注意的是,响应长度与推理质量无关,而“啊哈矩”出现了,但它们并不总是产生正确的答案 ...
近年来,奖励研究奖励成型(RL)的研究蓬勃发展,因为它的能力加快了训练的能力。我们以前的工作提出了自适应势函数(APF),并表明APF可以在低维域中使用多层感知算法加速Q-学习。本文建议使用一种使用状态编码方法将APF应用于基于像素的ATARI游戏,以将APF应用于基于像素的Atari游戏,以扩展APF(APF+),该方法将高维游戏的像素帧投影到低维嵌入式 ...
图像合成领域在过去几年中取得了巨大的进步。除了使用文本提示定义所需的输出图像之外,一种直观的方法是另外使用图像形式的空间指导,例如深度图。为此,最近非常流行的方法是使用控制网络(例如 ControlNet)与预训练的图像生成模型(例如稳定扩散)相结合 ...
财务时间序列(FINTS)记录了人脑授权决策的行为,捕获可利用可利用的盈利投资策略的有价值的历史信息。毫不奇怪,该领域吸引了研究人员的广泛关注,研究人员提出了基于各种骨架的广泛方法。但是,对该区域的评估通常表现出三个系统局限性:1 ...
及时调整软件提示,以调节冷冻预训练的语言模型(PLM),以以参数有效的方式执行下游任务。尽管随着模型量表的增加,及时调整逐渐达到了微调的性能水平,但对于中等和小尺度的模型(通常小于11B参数),及时调整和微调之间仍然存在较大的性能差距。在本文中,我们从经验上表明,受过训练的提示 Token 可能会对下游任务产生负面影响,从而降低其性能 ...
了解视频中发生的事件的内容及其固有的时间逻辑对于视频检索至关重要。但是,网络爬行的预训练数据集通常缺乏足够的事件信息,并且广泛采用的视频级交叉模式对比度学习也努力捕获详细且复杂的视频文本事件对齐。为了应对这些挑战,我们从数据和模型角度进行了改进 ...
基于摄像机的多视图3D检测已成为一种有吸引力的自动驾驶解决方案,因为其成本低和广泛的适用性。但是,尽管基于PETR的方法在3D感知基准测试中具有很强的性能,但其直接的INT 8量化量导致MAP和36中的急剧精度下降到58.2% ...