ChipNeMo 旨在探索大语言模型(LLM)在工业芯片设计中的应用。我们没有直接部署现成的商业或开源LLM,而是采用以下领域适应技术:领域自适应标记化、领域自适应持续预训练、与领域特定指令的模型对齐以及领域适应检索模型。我们在三个选定的芯片设计 LLM 应用程序上评估这些方法:工程助理聊天机器人、EDA 脚本生成以及错误总结和分析 ...
根据各种来源的文本进行预训练的语言模型构成了当今 NLP 的基础。鉴于这些广泛覆盖的模型的成功,我们研究了针对目标任务领域定制预训练模型是否仍然有帮助。我们提出了一项跨四个领域(生物医学和计算机科学出版物、新闻和评论)和八个分类任务的研究,表明域内预训练的第二阶段(域自适应预训练)可以在高和低条件下带来性能提升。低资源设置 ...
将用户的自然语言问题转换为 SQL 查询(即 NL2SQL)可显着降低访问关系数据库的障碍 ...
预训练语言模型(PLM)在自然语言生成(NLG)任务中取得了显着的成功。到目前为止,大多数面向NLG的PLM都是使用大规模通用语料库以无监督的方式进行预训练的。与此同时,越来越多的模型使用标记数据进行预训练(即 ...
大型语言模型 (LLM) 的最新进展在理解和响应用户意图方面取得了显着的突破。然而,它们的性能落后于某些专业领域(例如中医)的一般用例。现有将中医纳入 LLM 的努力依赖于单轮和蒸馏对话数据的监督微调(SFT) ...
近年来,人们对优质医疗服务的需求不断增加,医疗基础设施的差距凸显。随着大数据,尤其是文本成为医疗服务的基础,迫切需要针对医疗保健领域量身定制的有效自然语言处理(NLP)解决方案。利用预训练模型的传统方法在该领域呈现出有希望的结果,而当前的大语言模型 (LLM) 为医学文本处理提供了先进的基础 ...
价值迭代网络 (VIN) 是一种端到端可微架构,可在潜在 MDP 上执行价值迭代,以便在强化学习 (RL) 中进行规划。然而,VIN 很难扩展到长期和大规模的规划任务,例如在 100 美元×100 美元的迷宫中导航——这项任务通常需要数千个规划步骤才能解决。我们观察到这种缺陷是由于两个问题造成的:潜在 MDP 的表示能力和规划模块的深度 ...
近年来,大型语言模型 (LLM) 取得了长足的进步,在不同任务上实现了前所未有的性能。然而,出于商业利益的考虑,GPT、Gemini 和 Claude 等最具竞争力的模型已被隐藏在专有接口后面,而没有透露训练细节。最近,许多机构开源了一些强大的LLM,例如LLaMA-3,与现有的闭源LLM相媲美 ...
本文介绍了我们在 ICDAR 2021 科学文献解析任务 B 竞赛中的解决方案:表格识别到 HTML。在我们的方法中,我们将表格内容识别任务分为四个子任务:表格结构识别、文本行检测、文本行识别和框分配。我们的表格结构识别算法是基于MASTER [1](一种鲁棒的图像文本识别)定制的算法 ...
表结构识别(TSR)旨在将图像中的表格提取为机器可理解的格式。最近的方法通过预测检测到的单元框的邻接关系或学习从表格图像生成相应的标记序列来解决这个问题。然而,它们要么依赖额外的启发式规则来恢复表结构,要么需要大量的训练数据和耗时的顺序解码器 ...