Weight-only quantization has emerged as a promising solution to the deployment challenges of large language models (LLMs). However, it necessitates FP-INT operations, which make implementation on general-purpose hardware like GPUs difficult. In this paper, we propose FIGLUT, an efficient look-up table (LUT)-based GEMM accelerator architecture. FIGLUT 不执行传统的算术运算,而是根据权重模式从 LUT 中检索预先计算的值,从而显着降低了计算复杂性。 We also introduce a novel LUT design that addresses the limitations of conventional memory architectures. To further improve LUT-based operations, we propose a half-size LUT combined with a dedicated decoding and multiplexing unit. FIGLUT efficiently supports different bit precisions and quantization methods using a single fixed hardware configuration. For the same 3-bit weight precision, FIGLUT demonstrates 59% higher TOPS/W and 20% lower perplexity than state-of-the-art accelerator designs. When targeting the same perplexity, FIGLUT achieves 98% higher TOPS/W by performing 2.4-bit operations. ...
视觉语音识别 (VSR) 通过分析嘴唇运动来转录语音。最近,大型语言模型 (LLM) 已集成到 VSR 系统中,从而显着提高了性能。然而,LLM 的潜力尚未得到广泛研究,并且如何在 VSR 任务中有效利用 LLM 仍有待探索。本文系统地探讨了如何更好地利用 LLM 来完成 VSR 任务,并提供了三个关键贡献:(1)扩展测试:我们研究了 LLM 大小如何影响 VSR 性能,确认了 VSR 任务中的扩展规律。 (2)上下文感知解码:我们添加上下文文本来指导LLM解码,提高识别准确性。 (3)迭代完善:我们建议迭代完善LLM输出,逐步减少识别错误。大量实验表明,通过这些设计,可以充分发挥 LLM 的巨大潜力,从而显着提高 VSR 性能 ...
大型语言模型 (LLM) 已成为自然语言处理 (NLP) 领域的强大工具,并且最近在推荐系统 (RS) 领域引起了极大关注。这些模型使用自监督学习对大量数据进行训练,在学习通用表示方面取得了显着的成功,并且有潜力通过一些有效的迁移技术(例如微调和提示调整等)增强推荐系统的各个方面。利用语言模型的力量来提高推荐质量的关键方面是利用它们对文本特征的高质量表示及其对外部知识的广泛覆盖来建立项目和用户之间的相关性。为了全面了解现有的基于LLM的推荐系统,本次调查提出了一个分类法,将这些模型分为两大范式,分别是判别式LLM推荐(DLLM4Rec)和生成式LLM推荐(GLLM4Rec),其中后者首次被系统梳理。此外,我们系统地回顾和分析每个范例中现有的基于 LLM 的推荐系统,提供对其方法、技术和性能的见解。此外,我们还确定了关键挑战和一些有价值的发现,为研究人员和从业者提供灵感。我们还创建了一个 GitHub 存储库来索引 LLM 相关论文以供推荐,此 https URL ...
大型语言模型 (LLM) 被广泛用于自动代码生成,并取得了可喜的结果。尽管之前的研究已经评估了 LLM 生成的代码并确定了各种质量问题——例如冗余、可维护性差和性能次优,但对这些低效率的系统理解和分类仍未得到探索。如果没有这些知识,从业者很难针对实际应用程序优化 LLM 生成的代码,从而限制了其采用。这项研究还可以指导改进代码 LLM ,提高代码生成的质量和效率。因此,在本研究中,我们通过最先进的模型(即 CodeLlama、DeepSeek-Coder 和 CodeGemma)实证研究了 LLM 生成代码的低效率问题。为此,我们分析了 HumanEval++ 数据集中生成的 492 个代码片段。然后,我们构建了 LLM 生成代码中低效率的分类法,其中包括 5 个类别(通用逻辑、性能、可读性、可维护性和错误)和 19 个低效率子类别。然后,我们通过对 58 名 LLM 从业者和研究人员进行的在线调查来验证拟议的分类法。我们的研究表明,与逻辑和性能相关的低效率是最流行、最相关且经常同时发生的,并影响整体代码质量低效率。我们的分类法为评估 LLM 生成的代码质量并指导未来的研究以提高代码生成效率提供了结构化的基础 ...
基于数据流的加速器的准确、快速的性能预测对于高效的硬件设计和设计空间探索至关重要,但现有的方法很难在架构、应用程序和依赖于输入的控制流之间进行泛化。我们推出了 LLMulator,这是一个渐进式数值建模框架,利用预训练的大语言模型 (LLM) 的程序语义知识来进行稳健的、硬件和应用程序感知的预测。我们的数值模型将性能值视为分类标记序列,从而为未见过的应用程序提供与范围无关的估计和置信感知预测。为了处理依赖于输入的控制流,我们引入了基于强化学习的动态校准方法,与静态模型相比,循环预测误差降低了 9.7%,经过几次迭代后误差收敛到 11.2%。对于跨硬件泛化,我们开发了一种渐进式数据增强策略,可生成涵盖多级数据流结构、内存参数和循环映射原语的多样化数据集,从而显着提高跨架构和配置的预测准确性 ...
行人属性识别(PAR)在行人检索和识别等各种视觉任务中发挥着至关重要的作用。大多数现有的基于属性的检索方法在闭集假设下运行,即所有属性类在训练和推理过程中始终可用。然而,这种假设限制了它们在可能出现新属性的现实场景中的适用性。此外,基准数据集中的预定义属性通常是通用的,并且在个体之间共享,这使得它们在检索目标人员时的歧视性较小。为了解决这些挑战,我们提出了人员检索的开放属性识别(OAPR)任务,其目的是根据属性线索检索个体,无论这些属性在训练过程中是否被看到。为了支持这项任务,我们引入了一个新颖的框架,旨在学习涵盖广泛属性类别的通用身体部位表示。此外,我们重建了四个广泛使用的数据集以进行开放属性识别。对这些数据集的综合实验证明了 OAPR 任务的必要性和我们框架的有效性。源代码和预训练模型将在发布后公开 ...
检索增强生成系统通常会遇到优化检索相关性和生成效用之间的差距。由于存在这样的差距,检索到的文档可能与主题相关,但仍然缺乏生成过程中有效推理所需的内容。虽然现有的桥模块尝试重写检索到的文本以更好地生成,但我们展示了它们如何通过不捕获“文档实用程序”而失败。在这项工作中,我们提出了 R2U,其一个关键区别是通过在推理过程中联合观察重写和回答来逼近真实效用。为了蒸馏,R2U 衡量了这种监督以提高蒸馏的可靠性。我们通过测量重写上下文下答案的生成器增益来进一步构建效用改进监督,产生用于微调和偏好优化的信号。我们在多个开放域问答基准中评估我们的方法。实证结果表明,在强桥接基线上取得了持续改进 ...
基于多模态方面的情感分析(MABSA)旨在从多模态信息(包括文本和图像)中提取方面术语及其相应的情感极性。虽然传统的监督学习方法在这项任务中显示出了有效性,但大型语言模型 (LLM) 对 MABSA 的适应性仍然不确定。 Llama2、LLaVA 和 ChatGPT 等 LLM 的最新进展在一般任务中展示了强大的能力,但它们在 MABSA 等复杂和细粒度场景中的性能尚未得到充分探索。在这项研究中,我们对 LLM 是否适合 MABSA 进行了全面调查。 To this end, we construct a benchmark to evaluate the performance of LLMs on MABSA tasks and compare them with state-of-the-art supervised learning methods.我们的实验表明,虽然 LLM 在多模式理解方面表现出潜力,但他们在为 MABSA 取得令人满意的结果方面面临着重大挑战,特别是在准确性和推理时间方面。基于这些发现,我们讨论了当前 LLM 的局限性,并概述了未来研究的方向,以增强其多模态情感分析的能力 ...
无人机(UAV)视觉地理定位旨在匹配从不同视图(即无人机视图和卫星视图)捕获的同一地理目标的图像。由于无人机-卫星图像对的外观差异很大,因此非常具有挑战性。以前的工作将无人机和卫星捕获的图像映射到共享特征空间,并采用分类框架来学习位置相关的特征,同时忽略无人机视图和卫星视图之间的整体分布变化。在本文中,我们通过引入两个视图的分布对齐来缩短它们在公共空间中的距离来解决这些限制。具体来说,我们提出了一种端到端网络,称为PVDA(渐进式视图分布对齐)。在训练过程中,特征编码器、位置分类器和视图鉴别器通过新颖的渐进式对抗学习策略进行联合优化。特征编码器和视图鉴别器之间的竞争促使它们都变得更强。事实证明,对抗性学习逐渐被强调,直到无人机视图图像与卫星视图图像无法区分。因此,所提出的 PVDA 在学习位置相关但视图不变的特征方面变得非常强大,并且对新位置的未见过的图像具有良好的可扩展性。与最先进的方法相比,所提出的 PVDA 需要更少的推理时间,但在 University-1652 数据集上取得了优异的性能 ...
本文解决了无人机视觉地理定位的任务,其目的是匹配不同平台(即无人机和卫星)拍摄的同一地理目标的图像。一般来说,实现准确的无人机-卫星图像匹配的关键在于提取对视点变化、尺度变化和旋转具有鲁棒性的视觉特征。目前的工作表明,零件匹配对于无人机视觉地理定位至关重要,因为零件级表示可以捕获图像细节并有助于理解场景的语义信息。然而,在部分级表示中保留语义特征的重要性尚未得到很好的讨论。在本文中,我们介绍了一种基于 Transformer 的自适应语义聚合方法,该方法将部件视为图像中最具代表性的语义。图像块与不同部分的相关性是根据变换器的特征图来学习的。然后我们的方法将部分级特征分解为所有补丁特征的自适应总和。通过这样做,鼓励学习的部分关注具有典型语义的补丁。对 University-1652 数据集进行的大量实验表明,我们的方法相对于当前的工作具有优越性 ...