指令调优在使大型语言模型 (LLM) 与人类偏好保持一致方面发挥着至关重要的作用。尽管有大量的开放指令数据集,但在所有现有指令上简单地训练 LLM 可能不是最佳和实用的。为了确定最有益的数据点,自然语言处理(NLP)和深度学习领域提出了数据评估和选择方法 ...
本文介绍了一个新的环境LLM-PYSC2(大语模型Starcraft II学习环境),该平台源自DeepMind的Starcraft II学习环境,该环境可开发基于大型语言模型(LLMS)的决策方法。这种环境是第一个提供完整的星际争霸II动作空间,多模式观察接口和结构化的游戏知识数据库,它们与各种LLM无缝连接,以促进基于LLMS的决策的研究。为了进一步支持多代理研究,我们开发了一个LLM协作 ...
神经网络量化方法通常涉及在训练过程中模拟量化过程,从而使受过训练的模型高度依赖于目标位宽度和精确的量化方式。强大的量化提供了一种替代方法,并提高了对不同类别的数据类型和量化策略的耐受性。它打开了新的令人兴奋的应用程序,在这些应用程序中,量化过程不是静态的,并且可以不同以满足不同的情况和实现 ...
具有复杂集相交关系的群体是建模各种数据的自然方法,从社会群体的形成到构成生物生命基础的复杂蛋白质相互作用。表示这种高阶关系的一种方法是作为超图。但是,到目前为止,将机器学习技术应用于HyperGraph结构化数据集已受到限制 ...
许多最近的机器学习模型依靠细粒度的动态控制流进行训练和推理。特别是,基于复发性神经网络和强化学习的模型取决于复发关系,与数据有关的条件执行以及其他需要动态控制流的功能。这些应用程序受益于在分布式系统中的一组计算设备上做出快速控制流决策的能力 ...
近年来,人工智能(AI)技术的快速发展,尤其是大型语言模型(LLMS),彻底改变了科学发现的范式,建立了AI-For-Science(AI4Science)作为动态和不断发展的领域。但是,仍然缺乏对AI4Science进行整体评估的有效框架,尤其是从数据质量和模型能力的整体角度来看。因此,在这项研究中,我们提出了Scihorizon,这是一个全面的评估框架,旨在从科学数据和LLM的角度来基准准 ...
验证器或奖励模型通常用于增强大型语言模型(LLM)的推理性能。一种常见的方法是 Best-of-N 方法,其中由验证者对 LLM 生成的 N 个候选解决方案进行排序,然后选择最好的一个。虽然基于 LLM 的验证器通常被训练为判别分类器来对解决方案进行评分,但它们不利用预训练的 LLM 的文本生成功能 ...
我们介绍了Metaspatial,这是第一个基于强化的框架(RL)的框架,旨在增强视觉模型(VLM)中的3D空间推理,从而无需进行硬编码的优化,从而实现了实时3D场景的生成。 Metaspatial解决了两个核心挑战:(i)VLMS中缺乏内部化的3D空间推理,这限制了它们产生逼真的布局的能力,以及(ii)传统的监督微调(SFT)用于布局生成任务的效率低下,因为不可用。我们的关键创新是一种基于多转移 ...