最近,基于大型语言模型(LLM)的代理推动了自动软件工程(ASE)的重大发展。虽然验证了有效,但现有方法的设计主要关注代码的局部信息,例如... ...
在基础模型中实现智能代理行为的核心部分是使它们能够在更多计算或交互可用时反思自己的行为、推理并纠正错误。即使是最强大的专有大语言模型(LLM)也没有完全表现出连续改进其响应的能力,即使在明确告知他们犯了错误的情况下也是如此。在本文中,我们开发了 RISE:Recursive IntroSpEction,这是一种微调 LLM 以引入此功能的方法,尽管之前的工作假设这种功能可能无法实现 ...
我们介绍 Dynabench,一个用于动态数据集创建和模型基准测试的开源平台。 Dynabench 在 Web 浏览器中运行,支持人工和模型循环数据集创建:注释者试图创建目标模型会错误分类但其他人不会错误分类的示例。在本文中,我们认为 Dynabench 满足了我们社区的一个关键需求:当代模型在基准任务上很快取得了出色的性能,但在简单的挑战示例上却失败了,并且在现实场景中表现不佳 ...
我们提出了 Point-BERT,一种学习 Transformer 的新范例,将 BERT 的概念推广到 3D 点云。受 BERT 的启发,我们设计了一个掩码点建模(MPM)任务来预训练点云 Transformer。具体来说,我们首先将点云划分为多个局部点块,并设计带离散变分自动编码器(dVAE)的点云标记器来生成包含有意义的局部信息的离散点标记... ...
开发对话代理来与患者互动并提供主要临床建议因其巨大的应用潜力而受到越来越多的关注,特别是在 COVID-19 大流行期间。然而,端到端的基于神经网络的医学对话系统的训练受到医学对话语料库数量不足的限制。在这项工作中,我们首次尝试构建并发布与12种常见胃肠道疾病相关的大规模高质量医疗对话数据集MedDG,从在线健康咨询社区收集了超过17K的对话 ...
根据人类反馈进行强化学习 (RLHF) 是帮助大型语言模型 (LLM) 遵循指令并提供有益且无害的响应的关键技术之一。虽然存在直接策略优化方法,但最先进的 LLM 在 RLHF 中采用基于 RL 的方法(通常是 PPO)来训练策略,以在从偏好数据中学习的奖励模型的指导下生成良好的响应。这些方法的主要挑战是中间奖励模型的不准确性,特别是在需要长时间且复杂的推理来对响应进行评分的代码生成任务中 ...
事件是指在特定背景下发生的具体事件、事件或事件。事件推理的目的是根据一定的关系来推断事件并预测未来的事件。事件推理的尖端技术在各种自然语言处理应用中发挥着至关重要的作用 ...
多文档摘要由于其固有的主观偏见而成为一项具有挑战性的任务,DUC-2004 参考摘要中注释者间 ROUGE-1 分数低至 0.4 就凸显了这一点。在这项工作中,我们的目标是通过关注一组相关新闻文件的主要事件并在足够的背景下连贯地呈现它来增强新闻摘要的客观性 ...