具有可验证奖励(RLVR)的增强学习已成为增强大语言模型(LLMS)推理能力的强大范式。与传统的RL方法不同,RLVR利用基于规则的反馈来指导LLMS生成和完善复杂的推理链,这是一个非常依赖有效探索策略的过程。尽管先前的工作已经证明了RLVR的经验成功,但管理LLMS勘探行为的基本机制仍未得到充实 ...
基于大型语言模型(LLM)的编码代理在编码基准方面显示出令人鼓舞的结果,但它们对系统代码的有效性仍未得到充满意。由于系统代码的大小和复杂性,对系统代码库进行更改是一项艰巨的任务,即使对于人类来说,也是一项艰巨的任务。它需要在进行更改之前对许多上下文进行研究,这些上下文是从大型代码库及其庞大的承诺历史记录中得出的 ...
随着卷积赋予许多智能应用程序的能力,动态卷积进一步使其能够适应各种投入。但是,静态和动态的卷积是布局 - 敏捷或计算较高的,使其不适合特定于布局的应用,例如 ...
LLM-AS-A-Gudge是指大语模型(LLMS)产生的响应偏好的自动建模,这对于LLM评估和奖励建模都至关重要。尽管生成的LLM在各种任务上取得了长足的进步,但他们作为LLM法官的表现仍然没有期望。在这项工作中,我们提出了Think-J,它通过学习如何思考来改善生成的LLM-AS-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A ...
不正确的边界划分,复杂的语义表示以及发音和含义的差异通常会导致中文命名实体识别(CNER)的错误。为了解决这些问题,本文提出了HREB-CRF框架:使用CRF的分层减少偏置EMA。所提出的方法通过指数固定偏置的加权平均值和全局分层的关注来扩大单词边界和池长的文本梯度 ...
由于大型语言模型(LLM)越来越多地作为代理部署,因此它们集成到交互式环境和工具中会引入与模型本身相关的安全挑战。但是,缺乏评估代理安全的全面基准标准,这是有效评估和进一步改进的重大障碍。在本文中,我们介绍了Agent-Safetybench,这是一种综合基准,旨在评估LLM代理的安全性 ...
在本文中,得出了许多无限的Rademacher随机变量,用于正常功能的正常近似值的中等偏差。它们基于对kolmogorov距离的距离,在一般的rademacher函数和高斯随机变量之间,继续对Malliavin-Stein-Stein方法的操作员行为进行深入研究,以及上述功能的生成函数。作为应用,研究了ERDőS-rényi随机图和无限加权2跑的子图计数 ...
稀疏算法为多视图时间感知任务提供了极大的灵活性。在本文中,sparse4d的增强版本,其中我们通过实现多帧特征采样的递归形式来改进时间融合模块。通过有效解耦图像特征和结构化锚点特征,稀疏4d能够实现时间特征的高效变换 ...