尽管提供了卓越的性能,但开源大型语言模型 (LLM) 很容易被滥用。为了解决这个问题,最近的工作提出了 LLM 指纹识别方法来识别可疑申请背后的特定来源 LLM 。然而,这些方法无法提供隐秘且可靠的指纹验证。在本文中,我们提出了一种新颖的LLM指纹方案,即CoTSRF,它利用思想链(CoT)作为LLM的指纹。 CoTSRF 首先通过使用精心设计的 CoT 查询来查询源 LLM,从而收集来自源 LLM 的响应。然后,它应用对比学习来训练 CoT 提取器,从响应中提取 CoT 特征(即指纹)。最后,CoTSRF 通过将源 LLM 和可疑 LLM 的 CoT 特征之间的 Kullback-Leibler 差异与经验阈值进行比较来进行指纹验证。已经进行了各种实验来证明我们提出的 CoTSRF 对于指纹 LLM 的优势,特别是在隐秘且强大的指纹验证方面 ...
最近在使用单个音频通道分离来自多个重叠扬声器的语音信号方面取得的进展使我们更接近解决鸡尾酒会问题。然而,该领域的大多数研究都使用受限问题设置,比较扬声器几乎完全重叠、人为降低采样率且没有外部背景噪声时的性能。在本文中,我们努力将该领域推向更现实和更具挑战性的场景。为此,我们创建了 WSJ0 Hipster Ambient Mixtures (WHAM!) 数据集,其中包含来自 wsj0-2mix 数据集的两个说话者混合物以及真实的环境噪声样本。这些样本是在旧金山湾区的咖啡店、餐馆和酒吧收集的,并向公众公开。我们对各种语音分离架构和目标函数进行基准测试,以评估它们对噪声的鲁棒性。虽然分离性能因噪声而降低,但我们仍然观察到大多数方法相对于噪声信号有显着的增益 ...
top-k操作,即从分数集合中找到k个最大或最小的元素,是一个重要的模型组件,广泛应用于信息检索、机器学习和数据挖掘中。然而,如果 top-k 操作以算法方式实现,例如使用气泡算法,则无法使用流行的梯度下降算法以端到端方式训练所得模型。这是因为这些实现通常涉及交换索引,其梯度无法计算。而且,从输入分数到该元素是否属于top-k集合的指示向量的相应映射本质上是不连续的。为了解决这个问题,我们提出了一种平滑近似,即 SOFT(可扩展的基于传输的可微)top-k 算子。具体来说,我们的 SOFT top-k 运算符将 top-k 运算的输出近似为熵最优传输 (EOT) 问题的解。然后可以根据 EOT 问题的最优性条件有效地近似 SOFT 算子的梯度。我们将所提出的算子应用于 k 最近邻和波束搜索算法,并展示了改进的性能 ...
在现实场景中,实现领域泛化 (DG) 提出了重大挑战,因为模型需要泛化到未知的目标分布。由于不同模态表现出不同的属性,推广到看不见的多模态分布会带来更大的困难。为了克服在多模态场景中实现领域泛化的挑战,我们提出了 SimMMDG,一个简单而有效的多模态 DG 框架。我们认为,将不同模态的特征映射到相同的嵌入空间会阻碍模型泛化。为了解决这个问题,我们建议将每种模态内的特征分为模态特定和模态共享组件。我们对模态共享特征采用监督对比学习,以确保它们具有联合属性,并对模态特定特征施加距离约束,以促进多样性。此外,我们引入了跨模态翻译模块来规范学习的特征,这也可用于缺失模态泛化。我们证明了我们的框架在理论上得到了良好的支持,并且在 EPIC-Kitchens 数据集和本文介绍的新颖的人类动物卡通(HAC)数据集上的多模态 DG 中实现了强大的性能。我们的源代码和 HAC 数据集可从此 https URL 获取 ...
随着大型语言模型(LLM)的兴起,研究人员越来越多地探索其在软件工程等各种垂直领域的应用。 LLM 在代码生成和漏洞检测等领域取得了显着的成功。然而,它们也表现出许多局限性和缺点。基于 LLM 的代理是一种具有通用人工智能(AGI)潜力的新技术,它将 LLM 作为决策和行动的核心,解决了 LLM 缺乏自主性和自我完善的一些固有局限性。尽管有大量研究和调查探索在软件工程中使用 LLM 的可能性,但 LLM 和基于 LLM 的代理之间缺乏明确的区别。统一标准和基准测试仍处于早期阶段,以使 LLM 解决方案成为其领域内基于 LLM 的代理。在本次调查中,我们广泛调查了 LLM 和基于 LLM 的软件工程代理的当前实践和解决方案。我们特别总结了六个关键主题:需求工程、代码生成、自主决策、软件设计、测试生成和软件维护。我们从这六个主题中审查和区分 LLM 和基于 LLM 的代理人的工作,检查他们在任务、基准和评估指标方面的差异和相似之处。最后,我们讨论所使用的模型和基准,对其在软件工程中的应用和有效性进行全面分析。我们预计这项工作将为未来研究突破基于 LLM 的代理在软件工程领域的界限提供一些线索 ...
大型语言模型 (LLM) 在各种与代码相关的任务(称为代码 LLM)中取得了显着的进步,特别是在使用 LLM 从自然语言描述生成源代码的代码生成方面。这个新兴领域因其在软件开发中的实际意义而引起了学术研究人员和行业专业人士的极大兴趣,例如 GitHub Copilot。尽管人们对 LLM 针对各种代码任务的积极探索,无论是从自然语言处理(NLP)还是软件工程(SE)或两者的角度来看,都明显缺乏专门针对代码生成的 LLM 的全面且最新的文献综述。在本次调查中,我们旨在通过提供系统的文献综述来弥合这一差距,为研究 LLM 代码生成前沿进展的研究人员提供有价值的参考。我们引入了一种分类法来对代码生成 LLM 的最新发展进行分类和讨论,涵盖数据管理、最新进展、性能评估、道德影响、环境影响和实际应用等方面。此外,我们还对 LLM 在代码生成方面的发展进行了历史概述,并使用 HumanEval、MBPP 和 BigCodeBench 基准在不同难度级别和不同类型的编程任务上进行了实证比较,以突出 LLM 在代码生成方面的能力的逐步增强。我们确定了学术界与实践发展之间差距的关键挑战和有希望的机遇。此外,我们还建立了专门的资源 GitHub 页面(此 https URL)来持续记录和传播该领域的最新进展 ...
对大规模多模态数据集的自监督学习允许在联合多模态表示空间中学习语义上有意义的嵌入,而无需依赖人类注释。这些联合嵌入可以实现零样本跨模态任务,例如检索和分类。然而,这些方法通常很难很好地概括域外数据,因为它们忽略了特定于模态的嵌入中存在的语义结构。在这种情况下,我们提出了一种新颖的语义结构保持一致性方法,通过保留联合嵌入空间中特定于模态的关系来提高泛化性。为了捕获样本之间特定于模态的语义关系,我们建议学习多个锚点并根据样本与这些锚点的关系来表示样本之间的多方面关系。为了给每个样本分配多个锚点,我们提出了一种新颖的多重分配 Sinkhorn-Knopp 算法。我们的实验表明,我们提出的方法以自我监督的方式学习语义上有意义的锚点。此外,我们对 MSR-VTT 和 YouCook2 数据集的评估表明,我们提出的基于多锚点分配的解决方案实现了最先进的性能,并推广到域内和域外数据集。代码:这个https URL ...
本报告介绍了 Qwen2 系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一整套基础和指令调整的语言模型,参数范围从 0.5 到 720 亿,具有密集模型和专家混合模型。 Qwen2 超越了大多数先前的开放权重模型,包括其前身 Qwen1.5,并且在语言理解、生成、多语言熟练程度、编码、数学和推理等多个基准上表现出相对于专有模型的竞争性能。旗舰模型 Qwen2-72B 表现出色:MMLU 84.2、GPQA 37.9、HumanEval 64.6、GSM8K 89.5、BBH 作为基础语言模型 82.4。经过指令调整的变体 Qwen2-72B-Instruct 在 MT-Bench 上获得 9.1,在 Arena-Hard 上获得 48.1,在 LiveCodeBench 上获得 35.7。此外,Qwen2 还展示了强大的多语言能力,精通约 30 种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,凸显了其多功能性和全球影响力。为了促进社区创新和可访问性,我们在 Hugging Face 和 ModelScope 上公开提供 Qwen2 模型权重,并在 GitHub 上公开提供包括示例代码在内的补充材料。这些平台还包括用于量化、微调和部署的资源,促进广泛的应用和研究工作 ...
我们提出了一种压缩而有效的网格表示,即块化和修补标记化(BPT),有助于生成超过 8k 个面的网格。 BPT 通过采用分块索引和补丁聚合来压缩网格序列,与原始序列相比,其长度减少了大约 75%。这一压缩里程碑释放了利用具有更多面的网格数据的潜力,从而增强了细节的丰富性并提高了生成的鲁棒性。借助 BPT 的支持,我们在缩放网格数据上构建了基础网格生成模型训练,以支持对点云和图像的灵活控制。我们的模型展示了生成具有复杂细节和精确拓扑的网格的能力,在网格生成方面实现了 SoTA 性能,并达到了直接产品使用的水平 ...
时序图学习(TGL)对于捕捉股票市场不断变化的性质至关重要。传统方法常常忽略动态时间变化和股票之间静态关系结构之间的相互作用。为了解决这个问题,我们提出了对比学习的动态图表示(DGRCL)框架,该框架集成了动态和静态图关系,以提高股票趋势预测的准确性。我们的框架引入了两个关键组件:嵌入增强(EE)模块和对比约束训练(CCT)模块。 EE 模块专注于动态捕获股票数据的时间演变,而 CCT 模块则根据股票关系强制实施静态约束,并在对比学习中进行细化。这种双重关系方法可以更全面地了解股市动态。我们对美国两个主要股票市场数据集(纳斯达克和纽约证券交易所)的实验表明,DGRCL 的表现明显优于最先进的 TGL 基线。消融研究表明了这两个模块的重要性。总体而言,DGRCL 不仅增强了预测能力,而且还提供了一个强大的框架,用于在动态图中集成时间数据和关系数据。代码和数据可供公众访问 ...