有效的信息搜索对于增强大语言模型(LLMS)的推理和发电能力至关重要。最近的研究探索了使用强化学习(RL)通过与现实世界环境中的现场搜索引擎进行交互,从而提高了LLM的搜索功能。尽管这些方法显示出令人鼓舞的结果,但它们面临两个主要挑战:(1)不受控制的文档质量:搜索引擎返回的文档质量通常是无法预测的,因此将噪音和不稳定引入培训过程中 ...
在这项工作中,我们应对将现实的人格特质嵌入LLM的挑战。先前的方法主要集中在基于迅速的方法上,这些方法描述了与所需的人格特征相关的行为,遭受现实主义和有效性问题的困扰。为了解决这些限制,我们引入了Big5-Chat,这是一个大规模数据集,该数据集包含100,000个对话,旨在以人类在语言中表达其性格的模型 ...
大型音频语言模型(LALMS)具有明显高级的智能人类计算机相互作用,但他们对基于文本的输出的依赖限制了它们直接产生自然语音响应的能力,从而阻碍了无缝的音频相互作用。为了解决这个问题,我们介绍了step-audio-aqaa,这是一个完全端到端的LALM,旨在音频查询 - 审计答案(AQAA)任务。该模型集成了用于语言和语义特征提取的双重编码书的音频 Token ,一个1300亿个参数骨干LLM和用 ...
在现实世界中,代理之间的复杂互动对自主驾驶的重大挑战。最近,出现了一种有希望的方法,该方法将代理商的互动作为级别的游戏框架。它有效地将代理政策划分为层次游戏级别 ...
安全野外自治的先决条件是野外安全测试。然而,现实世界中的自主测试面临着一些独特的安全挑战,这都是由于在测试中造成伤害的可能性,以及通过与现实世界和潜在的恶意演员互动而遇到新的不安全代理行为的风险。我们提出了一个用于在开放互联网上进行安全自主代理测试的框架:代理操作由上下文敏感的监视器审核,该监视器强制执行严格的安全边界以停止不安全的测试,可疑行为排名并记录下来,以由人类检查 ...
我们引入了整流点流,这是一种统一的参数化,将成对点云的配置和多部分形状组装为单个条件生成问题。鉴于未倒闭的点云,我们的方法学习了一个连续的点速度场,该速度场将嘈杂的指向转向其目标位置,从中恢复了部分姿势。与先前的工作相比,以临时对称性处理来回归部分,我们的方法本质地学习了没有对称标签的组装对称性 ...
最近,将机器学习应用于非结构化文档的表结构推断和提取问题取得了重大进展。然而,最大的挑战之一仍然是大规模创建具有完整、明确的基本事实的数据集。为了解决这个问题,我们开发了一个新的、更全面的表提取数据集,称为,称为 ...