随着大型语言模型(LLM)的出现,神经机器翻译(NMT)的领域发生了变化。自然语言处理(NLP)最近的许多重点都用于建模机器翻译和许多其他使用单个预训练的 Transformer 解码器的问题,而编码器decoder架构(在早期NMT模型中是标准的编码器架构)受到了相对较少的关注。在本文中,我们通过将LLM的世界与NMT世界结合在一起,探讨了通用,高效且易于优化的翻译模型 ...
神经网络中通常发生的计算成语是对矩阵乘法的结果进行一些点式操作。这种操作序列通常表示为深度学习编译器中的计算图。当编译到GPU目标时,这些计算可以单独映射到Cublas和Cudnn等库提供的手动调整实现 ...
来自人类反馈的强化学习(rlhf)是调整大型语言模型(llm)的关键,通常与近端策略优化(ppo)算法配合使用。虽然ppo是一种专为一般强化学习任务而设计的强大方法,llm来说过于复杂,导致费力的超参数调整和巨大的计算负担。为了提高rlHf的效率,我们推出了 ...
这项研究研究了在大语言模型(LLMS)的上下文中的机器学习技术,称为\ textit {llm uncorning}。 LLM Uncorning提供了一种原则性的方法来消除不良数据的影响(例如 ...
在几次识别中,需要在一组课程上接受过培训的分类器,以迅速适应并推广到一组新颖的课程。为此,最近的研究表明,通过精心制作的适应体系结构进行微调的功效。但是,这提出了一个问题:如何设计最佳适应策略?在本文中,我们通过神经建筑搜索(NAS)的角度研究了这个问题 ...
我们提出了DSDRIVE,这是一种量身定制的端到端范式,该范式旨在将自动驾驶汽车的推理和计划集成到统一的框架中。 DSDRIVE利用采用蒸馏方法的紧凑型LLM来保留大型视觉语言模型(VLM)的增强推理能力。为了有效地调整推理和计划任务,进一步开发了以Waypoint驱动的双头协调模块的形式,该模块将同步数据集结构,优化目标和学习过程 ...
长期以来,非结构化的文本很难自动进行大规模分析。现在,大型语言模型(LLMS)通过启用{\ em语义数据处理}来提供前进的方向,其中熟悉的数据处理操作员(例如, ...
我们介绍了Goedel-Prover,这是一种开源大型语言模型(LLM),可在自动化的数学问题上实现最先进的(SOTA)性能(SOTA)性能。该领域的主要挑战是正式的数学报表和证明的稀缺性,我们通过以下方式解决这一问题。我们训练声明形式上的人将自然语言数学问题从Numina转换为形式语言(精益4),创建1个数据集 ...