定量投资研究中最重要的任务之一是挖掘新的alpha(有效的交易信号或因素)。传统的α采矿方法,无论是手工制作的因子合成还是算法因素挖掘(例如, ...
知识图完成(KGC)着重于识别知识图(kg)中缺失的三元组,这对于许多下游应用至关重要。考虑到大型语言模型(LLM)的快速发展,提出了一些基于LLM的方法来进行KGC任务。但是,他们中的大多数专注于迅速的工程,同时忽略了较细粒的子图信息可以帮助LLMS产生更准确的答案的事实 ...
基于大型语言模型的代理通过利用其丰富的背景知识和推理能力来加速科学发现方面的潜力。在本文中,我们介绍了生物生物熟悉的代理,该代理设计了新的实验,有关其结果的原因,并有效地导航了假设空间以达到所需的解决方案。我们在设计遗传扰动实验的问题上证明了我们的药物,其目的是从许多可能的基因中找到一个小子集,这些基因在扰动时会导致特定的表型(e ...
尽管深度神经网络(NN)通过提高重建质量来显着提高图像压缩传感(CS),但训练当前CS NN的必要性会限制其有效性,并缩减障碍物的快速部署。尽管最近的方法利用了预训练的扩散模型进行图像重建,但它们以缓慢的推理和对CS的适应性限制而挣扎。为了应对这些挑战,本文提出了可逆扩散模型(IDM),这是一种新型有效的,基于端到端扩散的CS方法 ...
在多源知识图(kgs)中寻求等效实体是kgs集成的关键步骤,也称为\ emph {entity Alignment}(ea)。但是,大多数现有的EA方法效率低下,可伸缩性较差。最近的摘要指出,其中一些甚至需要几天才能处理包含200,000个节点(DWY100K)的数据集 ...
实体对齐(EA)旨在找到不同知识图(KG)之间的等效实体对,这对于促进知识融合至关重要。随着时间知识图 (TKG) 的广泛使用,时间感知 EA (TEA) 方法似乎可以增强 EA。现有的TEA模型基于图神经网络(GNN)并实现了最先进(SOTA)的性能,但由于GNN的可扩展性问题,很难将它们转移到大规模TKG ...
实体对齐(EA)旨在找到不同知识图谱(KG)中引用现实世界中同一对象的实体。最近的研究结合了时间信息来增强 KG 的表示。时间知识图谱 (TKG) 之间的现有 EA 方法利用时间感知注意机制将关系和时间信息合并到实体嵌入中 ...
为了减少大型语言模型 (LLM) 的潜在滥用,最近的研究开发了水印算法,该算法限制生成过程,为水印检测留下不可见的痕迹。由于任务的两阶段性质,大多数研究分别评估生成和检测,从而对公正、彻底和适用的评估提出了挑战。在本文中,我们介绍了第一个LLM水印综合基准测试WaterBench,其中我们设计了三个关键因素:(1)对于基准测试程序,为了确保同类比较,我们首先调整每种水印方法的超参数达到相同的水印强度,然后共同评估它们的生成和检测性能 ...
由于大型语言模型卓越的生成性能引起了伦理和法律问题,因此正在开发通过嵌入水印来检测机器生成文本的方法。然而,我们发现,由于任务具有低熵的性质,现有的工作无法在代码生成任务中正常运行。扩展 logit 修改水印方法,我们提出了通过熵阈值进行选择性水印标记 (SWEET),它通过在生成和检测水印时删除低熵片段来增强检测能力并减轻代码质量下降 ...
我们研究对大型语言模型 (LLM) 生成的文本加水印的问题——这是解决 LLM 使用安全挑战的最有前途的方法之一。在本文中,我们提出了一个严格的理论框架来量化 LLM 水印的有效性和鲁棒性。我们通过使用简化的固定分组策略扩展现有方法,提出了一种鲁棒且高质量的水印方法,Unigram-Watermark ...