大型深度学习模型取得了巨大的成功,但是资源密集的,带来了诸如记忆使用之类的挑战。我们引入了Curing,这是一种基于Cur矩阵分解的新型模型压缩方法,该方法将重量矩阵近似为选定列(C)和行(R)的乘积,以及一个小的链接矩阵(U)。我们将这种分解应用于根据其幅度和激活的综合影响选择的权重 ...
通过Instagram等社交媒体网站进行的非法毒品贩运已成为一个严重的问题,因此引起了执法和公共卫生机构的极大关注。由于以下原因,如何从社交媒体数据中识别非法毒品交易商一直是技术挑战。一方面,由于爬行社交媒体网站的隐私问题,可用的数据受到限制。另一方面,毒品交易模式的多样性使得很难可靠地将毒贩与普通吸毒者区分开 ...
最近的大规模推理模型已经在具有挑战性的数学基准方面取得了最先进的表现,但其成功的内部机制仍然很少理解。在这项工作中,我们介绍了一个推理图的概念,该概念是通过在每个推理步骤中群集隐藏态表示提取的,并系统地分析了跨多个任务(GSM8K,MATH500,AIME 2024)的三个关键图理论属性:环状,直径和小世界索引。我们的发现表明,蒸馏推理模型(e ...
密集的检索(DR)已达到最先进的第一阶段排名有效性。但是,大多数现有的DR模型的效率受存储密集矢量和矢量空间中耗时的最近邻居搜索(NNS)的较高记忆成本的限制。因此,我们提出了RepConc,这是一种新型的检索模型,该模型通过受约束的聚类学习离散表示 ...
DeepSeek-R1通过强化学习在激励大语模型(LLM)的推理和概括能力方面表现出了出色的有效性。然而,在图像质量评估(IQA)的背景下,尚未对推理引起的计算建模的潜力进行彻底探讨,这是一项至关重要的任务。在本文中,我们介绍了VisualQuality-R1,这是一种推理引起的无参考IQA(NR-IQA)模型,并通过强化学习来训练它,这是一种针对视觉质量本质上相对性质的学习算法 ...
大型语言模型(LLM)的最新进展导致了自然语言产生的令人印象深刻的进步,但是它们产生幻觉或未经证实的内容的倾向仍然是一个关键问题。为了提高事实的可靠性,检索功能生成(RAG)在推理过程中整合了外部知识。但是,现有的抹布系统面临两个主要局限性:(1)由于外部知识监督有限而导致的不可靠的适应性控制,以及(2)由于参考不准确或无关的参考而引起的幻觉 ...
A Weighted Byzantine Fault Tolerance Consensus Driven Trusted Multiple Large Language Models Network
大型语言模型(LLMS)在广泛的应用中取得了巨大的成功。但是,由于其培训语料库和模型架构的限制,单个LLM通常会产生不一致,偏见或幻觉的输出。最近,已经引入了合作框架,例如Multi-LLM网络(MultiLLMN),使多个LLM可以进行交互并共同响应用户查询 ...
深层神经网络非常容易受到精心制作的人类侵蚀的对抗性扰动的影响。尽管事实证明对抗性训练(AT)是一种有效的防御方法,但我们发现,训练有素的模型在很大程度上依赖于输入的低频内容来进行判断,这考虑了低标准精度。为了缩小AT期间标准精度和稳健精度之间的较大差距,我们研究了清洁和对抗输入之间的频率差,并提出频率正则化(FR)以使光谱域中的输出差对齐 ...