我们介绍了生成无限 - vocabulary Transformer (GIVT),该 Transformer (GIVT)生成具有实值条目的向量序列,而不是来自有限词汇的离散 Token 。为此,我们对仅解码器的 Transformer 提出了两个令人惊讶的简单修改:1)在输入处,我们用输入向量的线性投影替换有限的唱片唱片查找表; 2)在输出时,我们用多元高斯混合模型的参数替换逻辑预测(通常映 ...
大型语言模型(LLMS)由于其先进的推理能力,在通信和网络方面具有强大的潜力。但是,由于不同的LLM具有不同的模型结构,并使用不同的语料库和方法进行了培训,因此它们可能为同一网络问题提供不同的优化策略。此外,单个LLM的培训数据的局限性因其托管设备的潜在恶意性而加剧,可能会导致置信度较低甚至偏见的响应 ...
对象引用旨在检测与给定自然语言描述匹配的图像中的所有对象。我们认为应将强大的对象引用模型扎根,这意味着其预测应该既可以解释又忠实于视觉内容。具体而言,它应该满足两个关键特性:1)可验证,通过产生可解释的推理来证明其预测合理并清楚地将其与视觉证据联系起来; 2)值得信赖的,当图像中没有对象满足给定表达时,学会弃权 ...
大型深度学习模型取得了巨大的成功,但是资源密集的,带来了诸如记忆使用之类的挑战。我们引入了Curing,这是一种基于Cur矩阵分解的新型模型压缩方法,该方法将重量矩阵近似为选定列(C)和行(R)的乘积,以及一个小的链接矩阵(U)。我们将这种分解应用于根据其幅度和激活的综合影响选择的权重 ...
通过Instagram等社交媒体网站进行的非法毒品贩运已成为一个严重的问题,因此引起了执法和公共卫生机构的极大关注。由于以下原因,如何从社交媒体数据中识别非法毒品交易商一直是技术挑战。一方面,由于爬行社交媒体网站的隐私问题,可用的数据受到限制。另一方面,毒品交易模式的多样性使得很难可靠地将毒贩与普通吸毒者区分开 ...
最近的大规模推理模型已经在具有挑战性的数学基准方面取得了最先进的表现,但其成功的内部机制仍然很少理解。在这项工作中,我们介绍了一个推理图的概念,该概念是通过在每个推理步骤中群集隐藏态表示提取的,并系统地分析了跨多个任务(GSM8K,MATH500,AIME 2024)的三个关键图理论属性:环状,直径和小世界索引。我们的发现表明,蒸馏推理模型(e ...
密集的检索(DR)已达到最先进的第一阶段排名有效性。但是,大多数现有的DR模型的效率受存储密集矢量和矢量空间中耗时的最近邻居搜索(NNS)的较高记忆成本的限制。因此,我们提出了RepConc,这是一种新型的检索模型,该模型通过受约束的聚类学习离散表示 ...
DeepSeek-R1通过强化学习在激励大语模型(LLM)的推理和概括能力方面表现出了出色的有效性。然而,在图像质量评估(IQA)的背景下,尚未对推理引起的计算建模的潜力进行彻底探讨,这是一项至关重要的任务。在本文中,我们介绍了VisualQuality-R1,这是一种推理引起的无参考IQA(NR-IQA)模型,并通过强化学习来训练它,这是一种针对视觉质量本质上相对性质的学习算法 ...