大型语言模型 (LLM) 正在成为增强基于会话的推荐 (SBR) 的有前景的方法,其中基于提示和基于微调的方法都已得到广泛研究,以使 LLM 与 SBR 保持一致。然而,由于缺乏特定于任务的反馈,以前的方法难以获得最佳提示来引出 LLM 的正确推理,从而导致推荐不令人满意。尽管后一种方法试图用特定领域的知识来微调 LLM ,但它们面临着计算成本高和对开源主干的依赖等限制 ...
0 0 0 2024/03/29 arXiv:2403.16427v3 huwenxing
自大型语言模型 (LLM) 首次出现以来,机器学习社区取得了令人瞩目的进步,但其巨大的内存消耗已成为大规模训练的主要障碍。人们提出了诸如低秩适应(LoRA)之类的参数高效微调技术来缓解这个问题,但它们的性能在大多数大规模微调设置中仍然无法与全参数训练相匹配。为了弥补这一缺陷,我们研究了 LoRA 在微调任务上的分层特性,并观察到不同层之间权重规范的罕见偏斜 ...
0 0 0 2024/03/29 arXiv:2403.17919v2 lukki
数据注释是用相关信息对原始数据进行标记或标记,这对于提高机器学习模型的效率至关重要。然而,该过程是劳动密集型且昂贵的。以 GPT-4 为代表的高级大型语言模型 (LLM) 的出现为彻底改变和自动化复杂的数据注释过程提供了前所未有的机会 ...
0 0 0 2024/03/29 arXiv:2402.13446v1 pau
随着大型语言模型 (LLM) 性能的不断提高,其规模也显着扩大,当前的 LLM 包含数十亿甚至数万亿的参数。然而,在这项研究中,我们发现LLM的许多层表现出高度相似性,并且某些层在网络功能中发挥的作用可以忽略不计。基于这一观察,我们定义了一个称为区块影响力(BI)的指标来衡量 LLM 中每一层的重要性 ...
0 0 0 2024/03/29 arXiv:2403.03853v2 黑色小熊饼干
深度学习分类器在人工智能时代至关重要。基于设备边缘的协同推理已被广泛采用作为促进其在物联网和5G/6G网络中应用的有效框架。然而,它在非 i 下会出现精度下降的问题 ...
0 0 0 2024/03/29 arXiv:2309.02820v1 HaoLiu0209
大型语言模型 (LLM) 的自回归解码受内存带宽限制,导致高延迟并严重浪费现代加速器的并行处理能力。加速 LLM 解码的现有方法通常需要草稿模型(例如 ...
0 0 0 2024/03/29 arXiv:2402.02057v1 orangelcx
深度学习 (DL) 技术最近在金融、医疗服务和云计算等各个领域的异常检测 (AD) 方面取得了成功。然而,当前的大多数研究倾向于将深度 AD 算法视为一个整体,而没有剖析损失函数和网络架构等单独设计选择的贡献。这种观点往往会削弱数据预处理等初步步骤的价值,因为人们更多地关注新设计的损失函数、网络架构和学习范式 ...
0 0 0 2024/03/29 arXiv:2309.15376v2 wgy
我们提出了 FREDo,一个几次文档级关系提取 (FSDLRE) 基准测试。与建立在句子级关系提取语料库上的现有基准相反,我们认为文档级语料库提供了更多的真实性,特别是对于非上述(NOTA)分布。因此,我们提出了一组 FSDLRE 任务,并基于两个现有的监督学习数据集 DocRED 和 sciERC 构建了基准 ...
0 0 0 2024/03/29 arXiv:2205.02048v2 张小平