大型语言模型(LLM)的最新进展在使机器学习任务自动化方面表现出了巨大的潜力。但是,现有的基于LLM的代理通常会在低多样性和次优码生成中挣扎。尽管最近的工作引入了蒙特卡洛树搜索(MCT)来解决这些问题,但限制持续存在生成的思想质量和多样性,以及用于节点选择的标量值反馈机制 ...
大型语言模型(LLM)正在彻底改变能够跨领域执行各种任务的AI助手的发展。但是,当前最先进的LLM驱动的代理商面临着重大挑战,包括高运营成本和诸如Gaia等复杂基准的成功率有限。为了解决这些问题,我们提出了思想的知识图(KGOT),这是一种创新的AI助手体系结构,将LLM推理与动态构建的知识图(KGS)集成在一起 ...
如今,大型语言模型 (LLM) 已使用扩展的上下文长度进行训练,以促进更具创造性的应用程序。然而,考虑到 GPU 内存的限制,长上下文训练提出了巨大的挑战。它不仅会导致训练期间大量的激活内存消耗,而且会产生相当大的内存碎片 ...
无监督的元学习旨在从无监督的数据集中学习特征表示,这些数据集可以使用有限的标记数据转移到下游任务。在本文中,我们提出了一种新颖的方法,用于无监督的元学习,以利用在 Transformer 体系结构中观察到的文化内部学习的概括能力。我们的方法将元学习重新制定为序列建模问题,使 Transformer 编码器能够从支持图像中学习任务上下文并利用它来预测查询图像 ...
最近提出的有关组合优化问题启发式方法的想法是有希望的,因为它可以节省昂贵的发展。但是,要将这个想法推向实际实施,我们需要更好的模型和更好的培训方式。我们在这两个方向上做出贡献:我们提出了一个基于注意力层的注意层的模型,并根据指针网络的优势展示了如何使用基于确定性的贪婪推出的简单基线来训练该模型,我们发现该模型比使用价值函数更有效 ...
从人类反馈(RLHF)中学习的强化学习对于使大语模型与人类偏好保持一致至关重要。尽管最近的研究集中在算法改进上,但迅速建筑的重要性被忽略了。本文通过在RLHF性能缩放中探索数据驱动的瓶颈来解决这一差距,尤其是奖励黑客入侵和降低响应多样性 ...
生成模型在创建高质量视频中的令人印象深刻的成就引起了人们对数字完整性和隐私脆弱性的关注。 AI生成的内容检测的最新作品已在图像字段中进行了广泛研究(例如 ...
我们提供了第一个机械证据,即无模型的强化学习者可以学会计划。这是通过将基于基于概念的可解释性的方法应用于索科班的无模型代理的方法来实现的,这是一种用于研究计划的常用基准。具体而言,我们证明了DRC是Guez等人引入的无通用模型的代理 ...