大型语言模型经历了快速发展,成为金融运营智能的关键技术。然而,现有的基准通常受到陷阱的限制,例如依赖模拟或通用样本以及关注单一的离线静态场景。因此,它们无法满足金融服务真实性和实时响应性的要求,导致基准性能与实际运营效率之间存在巨大差异。为了解决这个问题,我们推出了BizFinBench.v2,这是第一个基于中国和美国股票市场真实商业数据、集成在线评估的大规模评估基准。我们对来自金融平台的真实用户查询进行了聚类分析,得到了涵盖四个核心业务场景的 8 个基础任务和 2 个在线任务,总计 29,578 个专家级问答对。实验结果表明,ChatGPT-5 在主要任务中的准确率达到了 61.5%,尽管与金融专家相比仍存在很大差距;在在线任务中,DeepSeek-R1 的表现优于所有其他商业 LLM 。误差分析进一步识别了实际金融业务环境中现有模型的具体能力缺陷。 BizFinBench.v2超越了当前基准的局限性,实现了LLM金融能力的业务层面解构,为评估LLM在金融领域广泛部署的有效性提供了精确的基础。数据和代码可从此 https URL 获取 ...
奖励模型对于使大型语言模型 (LLM) 与人类价值观保持一致至关重要,但其发展受到昂贵的偏好数据集和较差的可解释性的阻碍。虽然最近基于标准的方法提供了透明度,但它们通常缺乏系统的质量控制和优化,从而在可扩展性和可靠性之间进行权衡。我们通过一个新颖的、免训练的框架来解决这些限制,该框架建立在一个关键假设的基础上:\textit{人类偏好的评估规则在不同的查询中表现出显着的泛化能力},这种属性可以实现显着的数据效率。我们的两阶段方法首先使用验证引导的 \textbf{Propose-Evaluate-Revise} 管道推断高质量的、特定于查询的评分标准。其次,它通过最大化\textbf{信息理论编码率}将这些细粒度的规则概括为一个紧凑的、非冗余的核心集。最终输出是一个可解释的、分层的“主题提示”标题集。大量的实验证明了该框架卓越的数据效率和性能。至关重要的是,仅使用 70 个偏好对(源数据的 1.5%),我们的方法还使 Qwen3-8B 等较小的模型能够超越专门的、经过充分训练的模型。这项工作开创了一条可扩展、可解释且数据高效的奖励建模途径 ...
随着大型语言模型 (LLM) 成为风险敏感环境中的高权限代理,它们引入了超出幻觉的系统性威胁,其中轻微的合规性错误可能会导致严重的数据泄露。然而,现有的基准测试侧重于基于规则的 QA,缺乏代理执行模型,忽视了对抗性交互中的合规性漂移,并且依赖于无法捕获行为退化的二进制安全指标。为了弥补这些差距,我们推出了 CNFinBench,这是一个涵盖 29 个子任务的综合基准,以专业知识、自主性和完整性为基础。它通过经过认证的监管语料库和专业财务任务来评估特定领域的能力,重建从需求解析到工具验证的端到端代理工作流程,并模拟引起行为合规漂移的多轮对抗攻击。为了量化安全降级,我们引入了有害指令合规性评分(HICS),这是一种多维安全指标,集成了特定于风险类型的扣除、多轮一致性跟踪以及基于细粒度违规触发器的严重性调整惩罚缩放。对 22 个开源/闭源模型的评估表明:LLM 在应用任务中表现良好,但缺乏强大的规则理解,单模块下降 15.4 点至完整执行链,并在多回合攻击中迅速崩溃,第 2 轮平均违规率飙升 172.3%。CNFinBench 可以通过此 https URL 和此 https URL 获得 ...