这项工作是第一个公开从人类反馈(RLHF)的缩放行为中公开重现了在Openai开创性TL中报告的缩放行为的研究。我们从头开始创建RLHF管道,列举超过20个关键实施细节,并在复制期间共享关键见解。我们受RLHF训练的毕达斯模型在响应质量上显示出具有模型大小的响应质量的显着增长,而我们的2则具有2 ...
将小语言模型(SLM)与人类价值观保持一致,通常涉及从大语言模型(LLM)中提取偏好知识。但是,现有的蒸馏方法通过比较成对响应来模拟教师LLM中的偏好知识,从而忽略了响应之间的差异程度。这种限制阻碍了学生SLMS捕获多个响应的细微偏好 ...
最近,类似 O1 的模型作为代表性例子出现,说明了长思维链(CoT)在数学和编码任务等推理任务中的有效性。在本文中,我们介绍了 DRT-o1,这是一种将长 CoT 的成功引入神经机器翻译(MT)的尝试。具体来说,鉴于文学书籍可能涉及明喻和隐喻,由于文化差异,将这些文本翻译成目标语言在实践中非常困难 ...
使用选定的子集将高级大语模型的指令跟踪功能的指示功能已成为模型培训中的主流方法。尽管现有的合成指令数据选择策略主要依赖于单维信号(即 ...
本文表明,多语言deNo进行预训练会在各种机器翻译(MT)任务中产生显着的性能增长。我们提出了Mbart-使用BART目标,以许多语言对大规模单语库进行预训练的自动编码器的序列对序列进行了序列。 MBART是通过以多种语言来确定完整文本的完整序列模型预训练的第一个方法之一,而以前的方法仅专注于编码器,解码器或重建文本的部分 ...
翻译对于跨语言沟通很重要,并且已经为提高其准确性而做出了许多努力。但是,将翻译与人类偏好(例如翻译语调或样式)保持一致的投资更少。在本文中,提出了一种新方法,以有效地生成具有使用大语言模型(LLMS)的特定翻译偏好的大规模多语言平行语料库 ...
大型语言模型(LLM)已经证明了它们在机器翻译(MT)领域的强大能力,但它们的计算成本和延迟很高。因此,将翻译知识从巨型LLM转移到中型机器翻译模型是一个有希望的研究方向。但是,传统的知识蒸馏方法并未考虑学生和教师模型的能力,因此反复以他们所学知识的知识来教授学生模型,并且未能扩展到新颖的背景和知识 ...
本文描述了一种新型的无损点云压缩算法,该算法使用神经网络来估计体素的占用状态的编码概率,这取决于要编码的素素周围的宽三维环境。点云表示为OCTREE,每个分辨率层都使用算术编码顺序编码和解码,从最低分辨率开始,直到达到最终分辨率。 OCTREE每个节点分裂模式的每个体素的占用概率都是由神经网络建模的,在其输入中具有几个OCTREE节点的已经编码的占用状态(属于过去和当前的分辨率),对应于周围节点周围的3D上下文 ...
点击率(CTR)预测是推荐系统,在线搜索和广告平台中的至关重要任务,在该计划中,准确捕获用户对内容的真正兴趣对于性能至关重要。但是,现有方法在很大程度上依赖于ID嵌入,这些嵌入方式无法反映用户对图像和标题等内容的真正偏好。在冷启动和长尾场景中,这种限制变得尤为明显,在这种情况下,传统方法难以实现有效的结果 ...
本文介绍了一项有关在机器翻译(MT)任务的背景下增强大语言模型(LLM)翻译功能的策略的研究。本文提出了一个新的范式,该范式包括三个阶段:使用广泛的单语言数据进行二级预训练,与Interlinear Text格式文档的持续预训练,并利用源语言一致的指导进行监督的微调。先前对LLM的研究重点是各种监督微调策略(SFT),但其有效性受到限制 ...