我们介绍了Secque,这是评估财务分析任务中大型语言模型(LLM)的全面基准。 Secque包括565个专家编写的问题,涵盖了四个关键类别的SEC申请分析:比较分析,比率计算,风险评估和财务洞察力生成。为了评估模型绩效,我们开发了Secque-gudge,这是一种利用多个基于LLM的法官的评估机制,这表明与人类评估有很强的一致性 ...
0 0 0 2025/09/20 arXiv:2504.04596v1 hxh123
解决财务问题需要复杂的推理,多模式数据处理以及广泛的技术理解,对当前的大型语言模型(LLMS)提出了独特的挑战。我们介绍了Xfinbench,这是一个新颖的基准,其中有4,235个示例,旨在评估LLM在不同的研究生级财务主题中解决具有多模式背景的各种研究生级财务主题的复杂,知识密集的财务问题的能力。我们使用Xfinbench识别LLM的五个核心功能,即 ...
0 0 0 2025/09/20 arXiv:2508.15861v1 hxh123
近年来,多模式大语模型(MLLM)经历了快速发展。但是,在金融领域,显然缺乏有效和专业的多模式评估数据集。为了促进金融领域的MLLM的发展,我们介绍了Finmme,其中包括18个金融领域和6种资产类别的11,000多个高质量的金融研究样本,其中包括10种主要图表类型和21个子类型 ...
0 0 0 2025/09/20 arXiv:2505.24714v1 hxh123
提示优化可提高大语模型(LLM)的推理能力,而无需对目标模型进行参数更新。遵循基于启发式的“思考逐步”方法,该领域已经在两个主要方向发展:一组方法使用文本反馈以无培训的方式从通用LLMS发出改进的提示,但并发的研究系列依赖于数值奖励来训练特殊的提示模型,用于为目标提示提供最佳的提示,以提示目标模型。在本文中,我们介绍了文本奖励提示框架(TRPROMPT),该框架通过将文本反馈直接纳入及时模型的培训 ...
0 0 0 2025/09/20 arXiv:2507.18618v1 wullllll
现实世界的决策通常需要整合和推理多种方式的信息。尽管最近的多模式大语言模型(MLLM)在此类任务中表现出了承诺,但它们在各种来源进行多跳上推理的能力仍未得到充分评估。现有基准(例如MMQA)由于(1)数据污染而面临挑战,以及(2)缺乏需要在两种以上方式进行操作的复杂查询,从而阻碍了准确的绩效评估 ...
0 0 0 2025/09/20 arXiv:2412.12567v4 hxh123
我们介绍了融资,这是一种新颖的基准,旨在评估财务数值推理问题中大型推理模型(LRMS)的推理能力。与现有基准相比,我们的工作提供了三个关键的进步。 (1)信誉:我们更新15 ...
0 0 0 2025/09/20 arXiv:2506.05828v2 hxh123
大型语言模型 (LLM) 在广泛的应用中表现出了卓越的性能,通常优于人类专家。然而,针对不同的推理用例有效部署这些参数较多的模型需要精心设计的硬件平台,并具有充足的计算、内存和网络资源。随着 LLM 部署场景和模型以极快的速度发展,满足 SLO 的硬件要求仍然是一个悬而未决的研究问题 ...
0 0 0 2025/09/20 arXiv:2406.01698v3 tongxianhui
随着这些系统的复杂性的增加,朝着蜂窝网络操作自动化的动力已经增长。尽管取得了进步,但由于依靠人类干预来建模网络行为并定义政策以满足目标要求,目前仍无法实现完全的自主权。网络数字双胞胎(NDTS)在增强网络智能方面表现出了希望,但是该技术的成功实施受到特定于用例的架构的限制,从而限制了其在推进网络自治方面的作用 ...
0 0 0 2025/09/20 arXiv:2411.06490v1 mike_zhang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)