尽管金融交易深度学习取得了重大进展,但现有模型往往面临不稳定和高度不确定性,阻碍了其实际应用。利用大型语言模型(LLM)和多代理架构的进步,我们提出了一种用于投资组合管理和阿尔法挖掘中的定量股票投资的新颖框架。我们的框架通过整合 LLM 来生成多样化的阿尔法并采用多代理方法来动态评估市场状况来解决这些问题 ...
我们评估人工智能系统是否能够可靠地评估投资风险偏好——这项任务在自动化之前必须经过彻底验证。我们的分析是在专有系统(GPT、Claude、Gemini)和开放权重模型(LLaMA、DeepSeek、Mistral)上进行的,使用精心策划的用户配置文件来反映具有不同属性(例如国家和性别)的真实用户。因此,当不应该影响风险计算的用户属性(例如国家或性别)发生变化时,模型在分数分布上表现出显着差异。例如,GPT-4o 为尼日利亚和印度尼西亚的个人资料分配了更高的风险评分。虽然一些模型与低风险和中风险范围内的预期分数密切相关,但没有一个模型能够在不同地区和人口统计数据中保持一致的分数,从而违反了人工智能和金融法规 ...
多模态大语言模型 (MLLM) 在自动化复杂财务分析方面具有广阔的前景。为了全面评估他们的能力,我们推出了VisFinEval,这是中国第一个跨越财务任务前中后台全生命周期的大型基准。 VisFinEval 包含 15,848 个带注释的问答对,这些问答对来自八种常见的金融图像模式(例如 K 线图、财务报表、公章),分为三个层次场景深度:金融知识与数据分析、金融分析与决策支持以及金融风险控制与资产优化。我们在零样本设置中评估了 21 个最先进的 MLLM。顶级模型 Qwen-VL-max 的总体准确率达到 76.3%,优于非专家人类,但落后金融专家超过 14 个百分点。我们的错误分析揭示了六种反复出现的故障模式,包括跨模式错位、幻觉和业务流程推理失误,这些模式突出了未来研究的关键途径。 VisFinEval 旨在加速开发强大的、针对领域定制的 MLLM,能够无缝集成文本和视觉金融信息。数据和代码可从此 https URL 获取 ...
在这项工作中,我们探索不确定性估计作为 LLM 生成代码正确性的代理。为此,我们将自然语言生成中的两种最先进的技术(一种基于熵,另一种基于互信息)应用到代码生成领域。考虑到代码的独特语义属性,我们引入了修改,包括基于符号执行的语义等价检查。我们的研究结果表明,通过这些技术计算的不确定性与正确性之间存在很强的相关性,突出了不确定性估计在质量评估中的潜力。此外,我们提出了基于熵的方法的简化版本,该方法假设 LLM 的响应均匀分布,证明了可比的有效性。使用这些技术,我们制定了一种弃权政策,可防止模型在不确定性较高时进行预测,从而将错误输出减少到接近零。我们对 LiveCodeBench 的评估表明,我们的方法明显优于仅依赖于 LLM 报告的对数概率的基线 ...
模仿学习方法在机器人操作方面显示出了巨大的前景,但其实际部署从根本上受到数据稀缺的限制。尽管之前在收集大规模数据集方面开展了工作,但在稳健的空间泛化方面仍然存在很大差距。我们确定了一个关键限制:各个轨迹,无论其长度如何,通常都是从环境的\emph{单个静态空间配置}中收集的。这包括固定的物体和目标空间位置以及不变的相机视点,这极大地限制了可用于学习的空间信息的多样性。为了解决数据效率中的这一关键瓶颈,我们提出了 \textbf{基于运动的可变性增强} (\emph{MOVE}),这是一种简单而有效的数据收集范式,可以从动态演示中获取更丰富的空间信息。我们的核心贡献是一种增强策略,为每次演示将运动注入环境中的任何可移动物体。这个过程隐含地在单个轨迹内生成一组密集且多样化的空间配置。我们在模拟和现实环境中进行了广泛的实验来验证我们的方法。例如,在需要强空间泛化的模拟任务中,\emph{MOVE} 实现了 39.1\% 的平均成功率,比静态数据收集范式 (22.2\%) 相对提高了 76.1\%,并且在某些任务上的数据效率提高了 2--5$\times$。我们的代码可以在这个 https URL 上找到 ...
由于卷积神经网络(CNN)在从大规模数据中学习可概括的图像先验方面表现良好,因此这些模型已广泛应用于图像恢复和相关任务。最近,另一类神经架构 Transformer 在自然语言和高级视觉任务上表现出了显着的性能提升。虽然 Transformer 模型弥补了 CNN 的缺点(即有限的感受野和对输入内容的不适应性),但其计算复杂度随空间分辨率呈二次方增长,因此无法应用于大多数涉及高分辨率图像的图像恢复任务。在这项工作中,我们通过在构建块(多头注意力和前馈网络)中进行几个关键设计,提出了一种高效的 Transformer 模型,使其可以捕获远程像素交互,同时仍然适用于大图像。我们的模型名为 Restoration Transformer (Restormer),在多项图像恢复任务上取得了最先进的结果,包括图像去雨、单图像运动去模糊、散焦去模糊(单图像和双像素数据)和图像去噪(高斯灰度/彩色去噪和真实图像去噪)。源代码和预训练模型可从此 https URL 获取 ...
Transformer 最近在低级视觉任务中获得了相当大的普及,包括图像超分辨率 (SR)。这些网络利用不同维度、空间或通道的自注意力,并取得了令人印象深刻的性能。这启发我们将 Transformer 中的两个维度结合起来,以获得更强大的表示能力。基于上述思想,我们提出了一种用于图像SR的新型Transformer模型——双聚合 Transformer (DAT)。我们的 DAT 以块间和块内双重方式聚合跨空间和通道维度的特征。具体来说,我们在连续的 Transformer 块中交替应用空间和通道自注意力。替代策略使 DAT 能够捕获全局上下文并实现块间特征聚合。此外,我们提出了自适应交互模块(AIM)和空间门前馈网络(SGFN)来实现块内特征聚合。 AIM从相应维度补充了两种自注意力机制。同时,SGFN在前馈网络中引入了额外的非线性空间信息。大量实验表明我们的 DAT 超越了当前的方法。代码和模型可从此 https URL 获取 ...
由于规模和复杂性不断扩大,无线网络日益面临挑战。这些挑战凸显了对先进人工智能驱动策略的需求,特别是在即将到来的 6G 网络中。在本文中,我们介绍 WirelessAgent,这是一种利用大型语言模型 (LLM) 来开发能够管理无线网络中复杂任务的 AI 代理的新颖方法。它可以通过高级推理、多模态数据处理和自主决策来有效提高网络性能。此后,我们演示了 WirelessAgent 在网络切片管理方面的实际适用性和优势。实验结果表明,WirelessAgent能够准确理解用户意图,有效分配切片资源,并始终保持最佳性能 ...
近年来,随着机器人学习和模仿学习的快速发展,出现了大量的数据集和方法。然而,这些数据集及其任务设计往往缺乏系统的考虑和原则。这就提出了重要的问题:当前的数据集和任务设计是否真正提高了机器人代理的能力?对几个常见任务的评估是否准确反映了不同团队提出并在不同任务上评估的各种方法的差异化性能?为了解决这些问题,我们引入了 Great March 100 (\textbf{GM-100}),作为机器人学习奥运会的第一步。 GM-100由100个精心设计的任务组成,涵盖广泛的交互和长尾行为,旨在提供多样化且具有挑战性的任务集,以全面评估机器人代理的能力,并促进机器人数据集任务设计的多样性和复杂性。这些任务是通过系统分析和扩展现有任务设计,结合人与对象交互原语和对象可供性的见解而开发的。我们在不同的机器人平台上收集了大量的轨迹数据并评估了几个基线模型。实验结果表明,GM-100 任务 1)执行起来可行,2)具有足够的挑战性,可以有效区分当前 VLA 模型的性能。我们的数据和代码可通过此 https URL 获取 ...
我们提出了一种基于本体的方法,在知识库上使用大型语言模型(LLM)来构建知识图(KG)。通过在知识库上生成能力问题(CQ)来发现知识范围,从 CQ 中提取关系,并尝试用维基数据中的对应关系替换等效关系,从而创建本体。为了确保生成的知识图谱的一致性和可解释性,我们使用基于提取的关系的创作本体来生成知识图谱。对基准数据集的评估展示了知识图构建任务中的竞争性能。我们的工作为可扩展的知识图谱构建管道提供了一个有希望的方向,以最少的人为干预,产生高质量和人类可解释的知识图谱,这些知识图谱可以与维基数据语义互操作,以实现潜在的知识库扩展 ...