PharmGPT：生物制药和化学领域特定的大型语言模型

Linqing Chen, Weilei Wang, ZilongBai, Peng Xu, Yan Fang, Jie Fang, Wentao Wu, Lizhi Zhou, Ruiji Zhang, Yubin Xia, Chaobo Xu, Ran Hu, Licong Xu, Qijun Cai, Haoran Hua, Jing Sun, Jin Liu, Tian Qiu, Haowen Liu, Meng Hu, Xiuwen Li, Fei Gao, Yufu Wang, Lin Tie, Chaochao Wang, Jianping Lu, Cheng Sun, Yixin Wang, Shengjie Yang, Yuancheng Li, Lu Jin, Lisha Zhang, Fu Bian, Changyang Tu
(PatSnap Co., LTD. Suzhou, Jiangsu 215000)
{chenlinqing, wangweilei}@patsnap.com *Corresponding author

摘要

大型语言模型（大语言模型）通过最大限度地减少复杂特征工程的需求，彻底改变了自然语言处理（NLP）。然而，大语言模型在生物制药和化学等专业领域的应用在很大程度上尚未得到探索。这些领域的特点是术语复杂、专业知识丰富，并且对精确领域的要求很高，而通用大语言模型往往无法满足这些领域的要求。在这项研究中，我们引入了 PharmGPT，这是一套拥有 130 亿和 700 亿个参数的多语言大语言模型，专门针对生物制药和化学领域的数千亿 Token 综合语料库进行了训练。我们的评估表明，PharmGPT 在关键基准（例如 NAPLEX）上匹配或超越了现有的通用模型，展示了其在特定领域任务中的卓越能力。这一进展为大语言模型在生物制药和化学领域树立了新的标杆，弥补了专业语言建模方面的现有差距。此外，这为加强这些专业领域的研究和开发提供了一条有希望的道路，为 NLP 在专业领域更精确、更有效的应用铺平了道路。

1简介

大型语言模型（大语言模型）的发展极大地改变了自然语言处理（NLP）的格局。最近的进展，如 GPT Radford 等人 (2018) 等模型所证明，减少了对广泛特征工程的依赖，从而简化了复杂 NLP 系统 Sarzynska-Wawer 等人 ( 2021）；霍华德和罗德 (2018)。这些模型在根据很少的提示理解和生成细致入微的文本方面表现出了卓越的能力。

尽管取得了这些进步，当前的大语言模型在应用于专业垂直领域时，特别是在生物制药领域，仍表现出显着的局限性。大多数最先进的大语言模型都是专有的，主要是为通用应用程序（主要是英语）而设计的。这种关注导致缺乏需要专业知识的领域所需的深度和精度。

为了解决这些缺点，我们引入了 PharmGPT，这是一套多语言大语言模型，配置有 130 亿和 700 亿个参数。这些模型已经在包含数十亿个标记的多样化语料库上经过精心训练，确保了跨多种语言的强大语言基础。我们对 Naplex 等基准的评估表明，PharmGPT 不仅可以与专业 NLP 任务中的现有模型竞争，而且经常超越现有模型。

PharmGPT 在生物制药和化学领域非常精通，展示了对专业术语和概念的卓越掌握。这种熟练程度至关重要，因为有效的特定领域语言模型需要对通用和专业语言上下文有深入的理解。

通过这项工作，我们的目标是为学术和专业社区贡献强大的模型，促进大规模、多语言、特定领域语言模型的开发和应用的进一步创新。 PharmGPT 促进包容性并扩大全球合作范围，突破 NLP 所能实现的界限。尽管大语言模型开发具有包容性，但研究界的很大一部分仍然代表性不足，这主要是由于大多数模型中普遍存在以英语为中心的训练数据。虽然模型处理语言如中文 Wang 等人 (2021) 取得了进步；曾等人 (2022); Kim等人(2021)，语言多样性的表征仍然有限。此外，“垂直领域大语言模型”的可访问性和适用性往往局限于其预期用途，特别是在生物制药和化学品等关键领域。

为了应对这些挑战，本文介绍了 PharmGPT，这是一种用于生物制药和化学的特定领域大型语言模型。我们的开发流程结构严谨，涉及创建多样化的训练数据集、细致入微的训练目标以及用于高效分布式学习的高级工程策略，详细信息请参见 2.2、3.1 节> 和 3.2 分别。 4节概述了模型性能的综合分析，展示了其相对于现有多语言大语言模型的竞争优势。我们的首要目标不仅仅是引入另一个大语言模型；我们提供了系统开发方法的详细路线图，旨在为特定领域 NLP 的未来发展制定新标准。

2 背景

为了给理解 PharmGPT 模型打下坚实的基础，本节首先概述大语言模型（大语言模型）的重要背景。我们讨论大语言模型的演变、其底层技术以及它们对自然语言处理（NLP）领域的关键影响。这一探索不仅凸显了技术进步，还为欣赏这些模型在各个领域的创新应用奠定了基础。随后，我们介绍了 PharmGPT 计划的组织概况。本概述详细介绍了该项目的范围、目标以及推动这一复杂的特定领域语言模型开发的协作动态。通过建立这种全面的背景，我们的目标是加深读者对该模型的架构、训练方法及其对生物制药和化学研究领域的独特贡献的理解。该模型的引入标志着将先进的 NLP 技术应用于专业科学领域的一个重要里程碑。通过本节，我们让读者充分了解 PharmGPT 为科学领域 NLP 应用带来的技术细微差别和特定部门的创新。

2.1 语言建模

语言建模是计算语言学的一项关键任务，旨在量化给定文本中标记序列的可能性。本文中的“词符”是指文本内容的离散单元，其粒度可以从单词、子词、字符到字节，如 MielkeMielke 等人 (2021) 所阐述的那样。这项研究与语言建模中的主流范式保持一致，致力于确定文本语料库中标记的联合概率分布，如下式所示：

p(\mathcal{X})=P(x_{i}|x_{1},\ldots,x_{i-1})=\prod_{i=1}^{n}P(x_{i}|x_{1},x_{2% },\ldots,x_{i-1})

(1)

其中 $\mathcal{X}$ 表示标记序列， $x_{i}$ 表示序列中的 $i^{th}$ 词符， $x_{<i}$ 表示前面的标记序列 $i^{th}$ 词符。这种方法被称为自回归语言建模，概括了顺序预测随后词符的概率的过程，从而促进了更细致的理解和自然语言的生成。这种方法不仅遵循概率建模的基本原则，而且利用当代计算技术来提高预测准确性和语言连贯性。

神经语言模型

自然语言处理中预训练模型的开始标志着在对特定任务数据集进行微调之前利用大量未标记数据进行模型初始化的重大转变。这些早期模型，例如 Word2Vec Mikolov 等人 (2013)、GloVe Pennington 等人 (2014) 和 ELMo Shahbaz 等人 (2019)，引入了将单词嵌入到连续向量空间中的概念，捕获语义和句法的细微差别，达到以前离散表示无法达到的程度。 Word2Vec 和 GloVe 专注于静态词嵌入，其中每个词都被分配一个向量，无论其上下文如何，这限制了它们解决自然语言中固有的多义性的能力。另一方面，ELMo 通过使用在语言建模目标上训练的双向 LSTM 架构生成上下文相关的表示来推进该领域的发展。这些基础模型为预训练语言模型的后续进步奠定了基础，为更复杂的架构铺平了道路，通过深度学习更好地捕捉语言的复杂性。它们的引入不仅彻底改变了自然语言处理任务的方法，而且建立了一种范式，使大规模语料库的预训练成为现代 NLP 方法的基石。

神经语言模型 (NLM) 作为传统 n-gram 模型的复杂替代品而出现，最初由 Miikkulainen 和 Dyer (1991) 以及 Schmidhuber 和 Schmidhuber 和 Heil (1996) 提出，Bengio 等人 (2000) 通过采用神经网络根据前面的标记来预测后续标记的概率，进一步强调了它们的重要性。最初的实现主要利用前馈神经网络，受到固定长度历史窗口的限制。然而，Mikolov 等人（2010 年）；Sutskever 等人（2011 年）；Graves（2013 年）的工作预示着范式的转变，他们主张使用递归神经网络 (RNN) 对词符序列进行建模，从而通过其处理变长序列的能力显著提高模型性能。 Vaswani 等人 (2017) 提出的 Transformer 架构代表了进一步的发展，在语言建模任务中表现出了优于 RNN 的功效，后续研究 Radford 等人 (2018) 证明了这一点； Al-Rfou 等人 (2019); Kaplan 等人 (2020)。这导致 Transformer 架构被采用为当代神经语言模型的事实上的标准，因为它在捕获远程依赖关系和更有效地学习文本中的上下文和语义方面具有无与伦比的能力。

NLP 模型预训练的进展

NLP 的最新进展已经发生了向在语言建模框架内利用迁移学习的重大转变。迁移学习通常涉及在数据丰富的任务上预训练模型，然后在特定的下游任务上对其进行微调。最初，预训练的主要方法涉及使用词向量，正如 Mikolov 等人 (2013) 所强调的那样，其中向量被训练以最大化共现词的点积。然而，Collobert 等人 (2011) 的开创性研究引入了一种更全面的方法，涉及整个模型的预训练，事实证明，这种方法可以产生优异的结果 Peters 等人 (2018)；霍华德和罗德（2018）； Radford 等人 (2018); Devlin 等人 (2018). 通过预训练 Transformer 模型的应用进一步推进了这一策略 Radford 等人 (2018)； Devlin 等人 (2018)，树立新标杆，激发逐步增强模型的发展Liu 等人 (2019)；杨等人 (2019);刘易斯等人 (2019);拉斐尔等人 (2020);张等人(2019).

使用预训练模型直接应用下游任务

虽然微调预训练模型可以有效地利用有限的标记数据实现高性能，但新兴研究表明，预训练语言模型也可以促进任务执行，而无需进一步训练。 Vinyals 和 Le (2015) 对神经对话模型中任务特定行为的初步观察导致 Radford 等人 (2019) 取得了重大突破，他们表明基于 Transformer 的经过大量网络抓取文本训练的模型可以熟练地处理不同的任务。值得注意的是，Radford 等人 (2019) 观察到性能的提高与模型规模的增加相关。这一见解激发了旨在理解 Kaplan 等人 (2020) 的广泛研究； Hoffmann 等人 (2022) 并利用 Shoeybi 等人 (2019)；布朗等人 (2020);史密斯等人 (2022); Chowdhery 等人 (2023); Rae 等人 (2021);王等人 (2021);曾等人 (2021);张等人 (2022) 规模效应。这种方法成功的一个关键方面是“提示”的战略设计，其中涉及制作自然语言任务描述并合并示例输入和输出Brown 等人（2020）。该方法不仅阐明了模型的任务，而且还优化了模型在少样本和零样本场景中的性能。

语言模型在生物制药和化学科学中的应用

大语言模型（大语言模型）的出现和随后的发展预示着生物制药和化学科学领域的新时代，为药物发现、化学合成优化和复杂生物途径的阐明提供了创新方法。与传统的计算方法不同，BioBERT Lee 等人 (2020) 和 ChemBERTa Chithrananda 等人 (2020) 等大语言模型擅长破译科学文献、专利、和实验报告，促进了知识提取和假设生成的无与伦比的深度。这些模型经过大量科学文本的训练，体现了预测新型蛋白质功能、提出具有所需特性的可行化合物以及以接近人类专家的准确度模拟反应机制的能力。此外，大语言模型在解析和合成不同领域的信息、整合基因组学、蛋白质组学和化学数据库的数据方面发挥了重要作用，为药物与靶点相互作用提供全面的见解Zeng 等人(2016)。例如，Transformer-CNN Karpov 等人 (2020) 等模型展示了将大语言模型架构与卷积神经网络相结合的能力，可增强复杂数据集中的特征提取，从而在识别潜在治疗方法方面取得突破对抗新出现病原体的候选者。

Refer to caption — 图1： PharmGPT大型模型研究团队的组织。

大语言模型（大语言模型）通过增强反应结果的预测和优化合成途径，深刻改变了化学合成领域。 Segler Segler 等人 (2018) 的开创性工作强调了深度学习模型自动规划化学合成的能力。这一进步显着减少了对传统试错方法的依赖，从而加快了有效合成路线的识别。此外，大语言模型与机器人自动化技术的集成标志着向高通量实验装置的重大转变。在这些设置中，人工智能驱动的系统不仅执行合成任务，还不断完善协议，从而大大加快化学研究中的发现和开发过程。大语言模型的影响不仅限于提高研究效率，还延伸到科学知识的民主化。通过让人们更广泛地接触最先进的发现，大语言模型促进了跨学科合作，将计算科学与实际实验室研究相结合。随着这些模型的进步，它们的适应性和可扩展性将为个性化医疗和绿色化学等领域开辟新的途径。这强调了人工智能在重新定义科学探究前沿方面的变革性作用及其塑造各个科学领域未来的巨大潜力Zhang 等人 (2023); Nguyen 等人 (2024);王等人(2023b)。

2.2PharmGPT研讨会

本节深入概述了 PharmGPT 计划，详细介绍了该项目的范围、目标以及塑造这一先进的特定领域语言模型开发的协作努力。全面概述旨在为后续部分奠定基础，深入研究 PharmGPT 的架构、方法以及对生物制药和化学研究领域的独特贡献。通过建立这种背景，我们的目标不仅是丰富读者的理解，而且还强调该模型在将尖端自然语言处理技术与特定领域的研究需求相结合方面的战略重要性。这种联系对于推进这些关键科学领域的研究和开发状况至关重要。

大模型研究团队的组织

大型模型研究团队 (LMRT) 图 1 处于推进自然语言处理 (NLP) 技术的最前沿。通过采用涵盖数据处理、模型开发、评估、跨学科协作和特定领域应用的全面且结构化的方法，LMRT 正在突破 NLP 研究和创新的界限。本文概述了 LMRT 的组织结构，强调了团队对数据完整性、先进建模技术、严格的评估方法以及 NLP 在生物医学和化学领域的应用的关注。

数据

LMRT 方法的核心是强大的数据基础设施，其特点是细致的数据准备、道德采购、严格的治理政策、先进的工具和深入的分析。该团队认识到高质量、多样化且相关的数据集对于开发强大且负责任的 NLP 模型至关重要。通过关注数据完整性并采用最先进的数据处理技术，LMRT 确保模型接受可靠且具有代表性的数据训练，为准确且有意义的结果奠定基础。

造型

LMRT的建模框架复杂而全面，融合了先进的标记化技术、元数据集成、多语言功能支持、创新的架构设计、高效的信息检索方法和多功能的提示策略。这些元素结合起来可以增强模型对复杂语言模式的理解，并提高它们在各种 NLP 任务中的适用性。该团队在开发尖端建模技术方面的专业知识使 LMRT 能够创建不仅功能强大而且能够适应各种现实场景的 NLP 模型。

评估

严格的评估是 LMRT 研究过程的一个重要方面。该团队采用少样本和零样本学习范例来评估各种场景中的模型性能，而仅限于或没有特定于任务的训练数据。这种方法确保了所开发模型的适应性和普遍性，使它们能够在新的和未见过的环境中有效地执行。通过采用严格的评估方法，LMRT 可以确定其模型的优势和局限性，指导进一步的研究和开发工作。

域名

LMRT 内的专业团队专注于利用生物医学和化学领域的 NLP 进步，旨在通过人工智能驱动的见解和分析彻底改变药物发现、患者护理和化学合成。

跨领域

LMRT 认识到跨学科合作在推进 NLP 研究和创新方面的重要性。该团队促进工程、计算语言学和特定领域知识领域的专家之间的密切合作。这种协作环境促进了 NLP 技术与实际应用的集成，从而能够开发出不仅技术先进而且在现实环境中具有相关性和影响力的解决方案。

应用

PharmGPT 研讨会中的道德考虑

生命科学中大型语言模型的部署引起了多种伦理问题。其中的关键是数据隐私，特别是在处理训练此类模型所必需的敏感患者数据时。确保数据安全和匿名至关重要，因为数据泄露可能会对个人隐私和研究诚信产生严重影响。此外，使用大型语言模型来合成新的化学实体或预测药物相互作用需要严格的验证以确保可靠性，并明确传达任何限制以防止误用并确保患者安全。公平地获得大语言模型的好处也带来了重大的道德挑战，因为这些先进技术可能会扩大现有的全球医疗保健差距。此外，大语言模型发现的知识产权管理涉及复杂的伦理和法律考虑，以平衡创新激励与公共卫生进步。

数据隐私和安全：实施高级加密、访问控制和差异隐私，同时遵守 GDPR 和 HIPAA 等法规，以保护敏感用户数据。

预测的可靠性和验证：确保跨不同数据集对 PharmGPT 进行严格验证，建立持续监控协议，并保持模型限制的透明度以防止滥用。

公平访问：与相关组织合作，考虑分层定价或开源许可，以促进更广泛的访问，尤其是在资源匮乏的环境中。

知识产权与公共卫生：创建协作框架，平衡创新激励与可获得的公共卫生解决方案的需求，确保公平分享新发现带来的利益。

这些战略措施可以帮助降低风险并加强 PharmGPT 在生命科学领域的负责任部署，确保安全、公平和可持续性。

3 PharmGPT

本节全面概述了 PharmGPT 的设计原则、架构和道德框架。 PharmGPT 旨在推进生物制药和化学领域的研究和应用，在强大的基础设施的支持下，体现了处理和生成特定领域语言结构的尖端方法。

3.1 训练数据集

PharmGPT 数据集概述

PharmGPT 模型利用广泛的数据集进行了严格的训练，其组成如图2所示，并在图3中进一步详细说明。这些图按类型、语言属、语系和宏观领域对数据进行分类，提供了数据集多样性的全面视图。图2具体说明了 PharmGPT 生物制药领域专有数据的增长。我们的数据和内容团队密切合作，不断为大型模型积累大量专业数据。在这里，我们简要概述了用于编译语料库的方法，并在后续部分中对管理过程及其结果进行了更深入的研究。这种方法强调了在训练专门的大型语言模型（大语言模型）中精心组装的数据集的重要性，文献表明特定领域的数据在增强模型性能方面的关键作用Lee等人（2020）； Beltagy 等人 (2019).

道德考虑

在大型机器学习项目中，弥合技术开发人员和最终用户之间差距的基本任务尤为重要。传统的数据集编译方法通常被低估为仅仅是“数据工作”，通常依赖于旨在最大限度地有效获取“高质量”数据的启发式方法。然而，这些方法经常未能考虑数据主体的权利和需求，仅根据其提高下游任务绩效的能力来狭隘地定义“质量”。这种方法可能会导致排除开发人员认为具有冒犯性的内容，从而强化源材料（例如 CommonCrawl 转储）和通过过滤过程引入的固有偏见。

Dataset	Dataset
Code of Federal Regulations	Biorxiv & Medrxiv
NCI Dictionary of Cancer Terms	American Stroke Association’s International Stroke Conference
European Hematology Association	American Diabetes Association’s annual Scientific Sessions
NCI Dictionary of Genetics Terms	American Urological Association Annual meeting
NCI Dictionary of Drug	The North American Pharmacist Licensure Examination (NAPLEX)
MedMCQA	International Committee on Thrombosis and Haemostasis

表格1： PharmGPT 生物制药领域专业领域数据示例

这种方法不仅存在聚集偏见的风险，而且还会产生不利的结果，特别是对于边缘化群体而言。例如，使用阻止列表排除“色情”内容无意中压制了数据集中与生物制药和化学领域相关的叙述。此外，对 Reddit 等特定数据源的语料库生成的依赖可能会使模型偏向以美国为中心的视角，进一步限制其全球适用性。为了解决这些问题，我们的 PharmGPT 数据集管理流程被设计为既方法论严谨又符合道德规范。这种方法反映了我们对科学卓越和社会责任的承诺，确保我们的模型能够满足广泛而多样化的全球需求，而不会延续现有的偏见。

语言选择

在我们之前的讨论中，我们反复强调我们打算探索和利用垂直领域内大语言模型（大语言模型）的专业能力，特别是通过我们对 PharmGPT 的研究。大型语言模型中语言的多样性可能会削弱其有效性；因此，我们在选择训练数据的语言时非常谨慎。我们主要关注中文和英语，并辅以少量其他广泛使用的语言。这种策略选择基于这样的假设：专注于更少的语言可以提高模型在特定领域任务中的熟练程度。这种方法与文献中的发现一致，文献表明，当使用精心策划的数据集进行训练时，语言模型在专门任务上表现出更好的性能，最大限度地减少语言多样性 Zhao 等人 (2020)； Bender 等人 (2021)。通过专注于中文和英文，我们的目标是优化 PharmGPT 在生物医学和化学（这些语言占主导地位的领域）中的效用，从而确保我们的模型不仅熟练，而且与其预期应用高度相关。

3.1.1数据治理

介绍

在大规模机器学习领域，编译大量文本语料库通常涉及属于个人并由个人产生的数据，称为数据主体。这些数据的合法所有权可能属于各个实体或个人，从而将他们确立为数据权利持有人。随着开发人员合并这些数据以支持日益复杂的模型的训练，必须设计出充分代表所有相关利益相关者（包括开发人员、数据主体和权利持有者）利益的创新机制。

协作框架

JerniteJernite 等人 (2022) 的工作概括了有效数据治理方面的重大进展，该工作描绘了包含数据托管人、权利持有者和其他相关实体的协作网络的必要框架。该模式经过精心设计，旨在保护相关方的隐私、知识产权和用户权利，特别强调尊重当地专业知识和核心价值观的明确表达。

动态数据管理

如图2所示，我们管理并不断更新动态数据集，该数据集在包含通用数据的同时，主要关注垂直领域特定的数据。通过我们数据团队的不懈努力，该数据集不断得到完善和扩展，随着时间的推移变得更加广泛和专业。

专业训练数据集

对垂直领域数据的重视强调了我们致力于开发具有生物医学和化学领域无与伦比的专业知识的大型语言模型（大语言模型）。这种方法与最近的研究结果相一致，这些研究强调了特定领域的训练数据集对于提高大语言模型在专门任务中的性能的重要性 Lee 等人 (2020)； Beltagy 等人 (2019). 通过优先考虑数据选择的深度和相关性，我们确保我们的模型 PharmGPT 不仅在理解和生成特定领域内容的能力方面处于领先地位，而且还可以作为该领域未来发展的基准。

结构性协议

该战略的核心是数据贡献者和存储库之间的结构化协议，明确概述了数据的允许用途。这些协议对于维护道德标准和法律合规性至关重要，确保所有数据使用都尊重数据主体和权利持有人的权利。

实施流程

尽管建立领先的特定领域模型的雄心勃勃的目标，但从项目启动到模型训练开始的时间限制需要务实的调整。我们的方法很全面，解决了数据管理的几个关键方面：

(i) 数据质量和准确性：我们确保输入模型的数据具有高质量和准确性。这通常涉及清理数据以消除错误和重复项，并采用技术来增强数据的一致性和可靠性。

(ii) 数据安全和隐私：我们实施了策略和技术来保护数据免遭未经授权的访问和泄露。这包括使用加密技术来保护数据存储和传输，以及遵守相关的数据保护法规，例如欧盟的通用数据保护法规（GDPR）。

(iii) 数据访问和共享：我们建立了规则来确定哪些用户和系统可以访问和使用数据。这一举措有助于确保数据的正确使用并防止其滥用。

(iv) 数据存储和归档：我们制定了有效的数据存储策略来支持数据的长期保存和检索。这涉及选择适当的存储解决方案并定期评估数据的相关性和价值，以确定是否应存档或删除数据。

(v) 合规性和标准化：我们确保我们的数据管理实践符合行业标准和监管要求。这包括制定和执行符合法律和道德标准的政策，特别是在处理敏感信息时实施特殊保护措施。

这些策略对于适应从项目启动到模型训练的快速时间表至关重要，确保我们的数据处理流程高效、安全且符合国际标准。

3.1.2数据源

数据治理的战略方法

建立强大的数据治理框架后，确定训练语料库的最佳组成成为关键的一步。这项努力是由多个目标引导的，这些目标有时会出现内在的冲突。其中之一是开发一种普遍可访问的语言模型，同时确保包含具有丰富专业知识的语言，以管理与之前的工作规模和质量相当的数据集。此外，优先考虑提高文档标准并尊重数据主体和算法操作的权利。

垂直领域数据

为了提高 PharmGPT 在生物制药垂直领域的表现，我们在模型中融入了一些更专业的数据。如图3所示，我们管理和维护动态数据集，包括我们特定领域的数据集，以学术论文和临床报告为例。有关其他生物医学垂直数据集的更广泛视角，请参阅附录，其中我们还记录了从各个生物制药公司收集的有关药物开发状态的大量数据。

3.1.3 数据预处理

确定数据源后，数据预处理需要一系列精心设计的步骤，旨在完善和准备用于 PharmGPT（一种专门用于生物医学和化学领域的大型语言模型）训练的数据集。

源数据采集

预处理的初始阶段涉及从各种来源获取文本数据。此过程包括从各种 NLP 数据集格式（例如，问答、摘要、对话）下载和提取文本，从 PDF 档案（尤其是综合法语存储库）中抓取科学文章，以及预处理来自数百个编目网站以及其他网站的 Web 内容由数据工作组成员确定的地理多样性。我们开发了新工具，用于从 Common Crawl WARC 文件中的 HTML 中提取文本，从而提高了数据收集的范围和效率。

质量过滤：以人为本的文本选择

预处理的关键步骤是内容过滤，以确保包含高质量的人工生成文本。我们根据“由人类为人类编写”的文本原则来定义质量，强调排除非自然语言元素，例如预处理错误、SEO 驱动的内容和垃圾邮件。开发了一个用于识别高质量文本的详细框架，其中纳入了特定于语言的参数和流利说话者的定性评估。这种细致入微的方法允许进行定制过滤，确保数据集的完整性和自然性。

Category	Subclass	Detail
Manually Labeled Data	multi_intention	Question and answer pairs accumulated by
	multi_intention_en	biomedical experts in R&D during the use of our model.
	definition	-
	openQA_tech	-
	openQA_tech_en	-
	online_cn	-
	patent_cn_other	-
	patentQA	-
	openQA_other	-
	sharegpt_reanswe_wit_gpt4	-
	identify	-
	sharegpt_cn	-
	sharegpt_en	-
Synthesized Data	PharmWebGPT	Fine-tuning instruction data
	OtherWebGPT	for the model to obtain rag capabilities.
	medical_CVD_QA	Question and answer pairs
	MedLLM_cn	accumulated by members of our team.
	multi_intention	-
	pharm_uat	-
	mixed_data	Supervised tasks fine-tuning data.
	mrc_change_to_4k	-
	task_en	-
	text2solr	-
	patent_summary	-
	mrc_4k	-
	fromcc_neox_instruction_point_8k	-
	patent_key_word	-
	Pharm_question_splited	-

表2：指令数据类型示例。

重复数据删除和隐私注意事项

为了维护数据质量和隐私，我们实施了严格的重复数据删除和隐私措施。该过程涉及两层重复数据删除，以删除几乎相同的文档，然后编辑个人身份信息，优先考虑隐私风险最高的数据集。采用基于正则表达式 (regex) 的编辑技术，并了解潜在的误报，以确保在不显着损害数据实用性的情况下保护隐私。

数据预处理的最新进展和伦理考虑

鉴于与大语言模型的大型数据集预处理相关的伦理和方法复杂性，我们使我们的实践与该领域的最新进展保持一致。值得注意的贡献提供了对道德数据管理和先进预处理技术的见解，这些技术尊重数据主体权利，同时提高模型性能。这些参考文献强调了在生物医学和化学等专业领域内开发大语言模型时伦理考虑和创新方法的重要性。

总之，我们项目的预处理阶段是采用全面且符合道德的方法进行的，结合了先进的技术和工具，以确保创建高质量、多样化且尊重隐私的数据集。这种方法不仅有助于训练更准确、更可靠的模型，还有助于在关键领域就负责任的人工智能开发进行更广泛的讨论。

3.1.4 指令微调和RLHF数据

迅速的

多任务学习的范式，特别是通过基于指令的微调，彻底改变了预训练语言模型的效率和适用性。这种方法称为指令调整或提示微调，涉及使用通过自然语言提示阐明的多样化任务集来完善预训练模型。 T0 Sanh 等人 (2021) 是这一技术的开创性实施，在广泛的任务中展示了卓越的零样本学习能力。 T0 是 BigScience 项目下的一项举措，它利用了公共提示池 (P3)——针对各种开源英语数据集的提示的全面集合——甚至与更大的、未微调的模型相比，也表现出了卓越的性能。

在此基础工作的基础上，我们的项目随着 PharmGPT 的发展，将提示微调的概念扩展到生物医学和化学领域。受到 T0 方法的启发，PharmGPT 采用了一组丰富的自然语言数据集，经历了类似的多任务微调过程。这种改进的方法不仅增强了 PharmGPT 处理复杂、特定领域任务的基础，而且与 NLP 研究的前沿保持一致，表明了其致力于提高专业领域语言模型能力的承诺。

快速傅里叶变换

为了使我们的模型能够以比通用大语言模型更小的参数规模在生物医学和化学领域取得优异的性能，我们精心设计了一系列有针对性的微调干预措施。这些干预措施基于大量数据集，其中包括由我们的领域专家团队生成和验证的大量高质量数据。这种战略方法确保我们的模型不仅在专业领域表现出色，而且效率更高、精度更高。

RLHF

我们收集了一个数据集，其中包含 50,000 个人类偏好专家注释的奖励建模指令。该数据集包括由我们专有的各种大小的 PharmGPT 模型以及商业大语言模型（大语言模型）（例如 GPT-4 和 ChatGPT-3.5）生成的提示和几个响应，以增强响应的多样性。专家注释者使用标准的标注指南对这些响应从最好到最差进行排名，并根据这些排名构建比较对。

Hyper Parameters	Pre-training	Finetuning
Model	70B	70B
batch size	4	1
global batch size	1024	128
Min_LR	1e-5	1e-6
Max_LR	3e-5	1e-5
Max_len	2048	4096
Extral_vocab_size	2049	4097
TP	8	8
PP	16	4

表3：训练超参数设置。

3.2训练

生物医学和化学领域的大语言模型的训练需要非常精细的方法，如图4所示，它将基础预训练、有针对性的多任务微调和强化结合起来从人类反馈中学习（RLHF）。本节概述了所采用的战略方法，强调了最近的进展并纳入了新的相关参考文献来支持我们的方法。如前所述，我们的 PharmGPT 由具有不同参数大小的模型组成。具体来说，3B模型是从头开始训练的，而13B和70B模型是基于LLaMa系列模型进行后训练的。

我们采用这种可靠的技术路线，是因为大语言模型需要有广泛而充足的通用知识基础，才能有效发挥交互能力的骨干作用。 LLaMa 系列模型因其经过验证的一般性能和适应性而提供了良好的基础。在本文的后续部分中，我们将通过案例研究和公共基准测试来论证特定领域后培训的重要性和影响。这些插图将展示我们的方法如何不仅增强模型在特定任务中的性能，而且还为生物医学和化学领域的特定领域训练建立了新标准。在本节中，我们将详细介绍 PharmGPT-70B 的训练过程，该模型的参数数量高达 700 亿。

继续预训练

继续预训练阶段建立了我们的大型语言模型（大语言模型）的基础知识，利用广泛的语料库在专业化之前学习一般语言表示。对于 PharmGPT，我们利用了生物医学文献、化学专利和研究文章的多样化汇编。这确保了模型获得对特定领域语言和概念的全面理解，这对于后续微调阶段的有效性至关重要。此阶段的关键是选择全面且高质量的预训练语料库，从而避免可能误导模型学习轨迹的偏差和不准确Devlin 等人 (2018)；布朗等人 (2020).

在继续预训练之前，我们使用 SentencePiece Kudo 和 Richardson (2018) 的字节对编码 (BPE) Shibata 等人 (1999) 开发了一个新的分词器，基于我们的预训练数据。然后，该分词器与 LLaMA2 分词器合并，形成一个扩展词汇量为 55,296 的新分词器。此次调整旨在提高中文文本和专业领域的词符压缩效率。与 LLaMA2 标记生成器相比，增强型标记生成器增加了 23,296 个标记，可在所有 PharmGPT 模型中使用。为了适应这个新的分词器，我们将单词嵌入和输出层的大小从 $V\times{H}$ 的形状调整为 $V’\times{H}$ ，其中 $V=32,000$ 表示原始词汇量， $V^{\prime}=55,296$ 表示新的词汇量。新行被附加到原始嵌入矩阵的末尾，确保原始词汇表中标记的嵌入不受影响。然后在扩展预训练阶段进一步训练附加参数。

我们对 PharmGPT 模型采用了两阶段持续预训练方法，在第一阶段消耗了 1530 亿个 Token ，在第二阶段消耗了 130 亿个 Token 。图3说明了预训练阶段使用的各种数据类型相对于相应预训练数据总量的比例。在这两个阶段中，数据类别的分布在策略上是非随机的。第一阶段主要利用来自网络、新闻、专利和论文的数据，将基础知识灌输到 PharmGPT 模型中。在第二阶段，重点转向广泛使用研究报告和考试中的数据，以及书籍、聊天、代码和监督数据中的重要部分。值得注意的是，由于第二阶段的词符总数较第一阶段明显减少，来自书籍、聊天、考试、代码和研究报告的数据的相对比例有所增加。这一调整确保 PharmGPT 模型在与生物制药和化学领域相关的细致知识和任务方面得到充分的培训。

指令微调

在预训练阶段之后，指令微调采用大型语言模型（大语言模型）来执行各种特定领域的任务，例如蛋白质结构预测、化学性质分析和患者数据解释。此阶段涉及多个不同数据集的集成，每个数据集代表生物医学和化学领域的不同任务。通过采用自然语言提示和特定任务目标，我们引导大语言模型将其一般知识应用于这些专门任务，从而增强其多功能性和实用性。微调过程受到 T0 模型方法的影响，通过提示学习 Sanh 等人 (2021) 利用不同任务的数据集。这种策略不仅提高了模型在广泛任务中的性能，而且还加深了对特定领域的挑战和细微差别的更深入的理解。

受 Wang 等人 (2023a) 的启发，我们利用加权自回归目标，将用户指令中的 Token 损失归零，以更好地符合人类意图。损失函数可以表示为：

	$\displaystyle\mathcal{L}_{SFT}\left(\Theta\right)$	$\displaystyle=\mathbb{E}_{x\sim\mathcal{D}_{SFT}}\left[-\alpha\sum_{i\in\text{% output}}\log p\left(x_{i}\mid x_{0},x_{1},\ldots,x_{i-1};\Theta\right)\right]$		(2)
	$\displaystyle\alpha$	$\displaystyle=\begin{cases}1,&\text{if }x\in\mathcal{D}_{\text{exp}}\\ 0.1,&\text{if }x\in\mathcal{D}_{\text{gen}}\end{cases}$		(3)

在我们的方法中，我们利用数十万条通用指令来使模型能够实现针对生物医学、化学领域和下游应用场景量身定制的对话功能。相关性越高的指令在训练过程中被赋予更大的权重。这些方法确保我们的模型在领域内表现出差异化且显着增强的性能。

其中 $\Theta$ 表示模型的参数， $\mathcal{D}_{SFT}$ 是微调数据集， $x=\left(x_{0},\ x_{1},.\ .\ .\ ,x_{i-1}\right)$ 表示标记化的输入序列，输出支配属于输出段的标记。

RLHF

采用人类反馈强化学习 (RLHF) 作为细化步骤，通过使模型更符合人类判断和道德考虑来进一步增强模型的性能。在此阶段，大语言模型根据领域专家的反馈进行微调，这些专家评估模型在特定任务上的输出，例如药物相互作用预测或治疗建议生成。这种反馈循环允许将专家知识和道德考虑直接纳入模型中，确保其建议不仅准确，而且符合专业标准和道德准则Ouyang等人（2022）。

这种训练方法结合了预训练、多任务微调和RLHF，使我们的大语言模型处于生物医学和化学领域的前沿。它不仅使模型能够深入理解复杂的、特定领域的内容，而且还确保其输出实用、准确且符合道德规范。通过利用 NLP 的最新进展并结合专家反馈，我们的目标是为大语言模型铺平道路，为这些关键领域的研究和实践做出重大贡献。

Lee 等人 Bai 等人 (2022) 的研究结果表明，较大的 RM 在奖励建模任务中具有优异的性能，我们利用预训练的 PharmGPT-70B 模型来初始化 RM 的参数。该 RM 用于所有后续 PharmGPT 模型迭代的强化学习。为了适应 RM 的作用，我们通过左填充对齐每个样本中的结尾词符，并使用两个多层感知器 (MLP) 增强 RM，使其能够输出表示人类偏好的标量分数。 RM 使用二元排名损失进行优化，定义为：

\mathcal{L}_{ranking}=-\log\left(\sigma\left(r_{\theta}\left(x,y_{c}\right)-r_% {\theta}\left(x,y_{r}\right)\right)\right)

(4)

其中 $r_{\theta}(x,y_{c})$ 表示给定提示 $x$ 的标量分数及其相应的注释者首选响应 $y_{c}$ , $y_{r}$ 表示被拒绝的响应， $\sigma$ 是 sigmoid 函数。

为了稳定强化学习模型的训练，我们采用了近端策略优化（PPO）Schulman 等人（2017），并由 RM 分数提供奖励信号。在 RLHF（人类反馈强化学习）训练过程中，参与者模型和参考模型均使用前面描述的微调模型进行初始化，而批评模型则使用 RM。在每个训练步骤中，参与者模型根据给定的提示生成四个响应。选择产生最高 RM 分数的响应来优化参与者模型。

4评估

在这项研究中，我们在一系列基准场景中严格评估 PharmGPT 模型，以评估其在生物医学和化学领域预期的实用应用环境中相对于现有大型语言模型（大语言模型）的比较有效性。我们的目标是仔细记录和分析 PharmGPT 在一系列任务中的性能，包括但不限于机器翻译和摘要，在零样本和一次性场景中进行评估，以及多任务微调的结果。

为了确保我们方法的严谨性和同步性，我们整合了最近文献中的见解和方法，包括少样本学习和语言模型泛化技术的进步Brown等人（2020）； Rae 等人 (2021). 这些参考文献作为基础支柱，指导我们的评估策略，并提供一个全面的框架来评估 PharmGPT 在我们目标领域内的细微差别能力。

通过这种综合评估方法，我们的研究致力于将 PharmGPT 建立为一个关键模型，不仅推进生物医学和化学科学大语言模型的最新水平，而且为这些关键领域的未来探索和应用奠定基础。我们的研究结果强调了该模型在解决复杂的特定领域挑战方面的重大前景，从而促进自然语言处理（NLP）和特定领域研究工作的进一步创新。

4.1实验设计

本节详细介绍了旨在评估我们的大型语言模型（大语言模型）在与生物医学和化学领域相关的一系列任务中的有效性的实验框架。我们对任务的选择是经过战略性选择的，以证明模型在理解和生成文本方面的能力。这些任务包含多种格式和语言，强调了模型的多功能性。

多任务多语言理解 (MMLU)

多任务多语言理解 (MMLU) 子集评估大语言模型 (大语言模型) 在各种语言和领域的熟练程度。此评估测试模型将训练期间获得的知识推广到自然语言提示中呈现的新的、未见过的任务的能力。我们的目标是根据最近 MMLU 评估研究建立的标准对我们模型的性能进行基准测试，从而证明其在语言理解方面的竞争优势。

机器翻译（MT）

对于机器翻译（MT）任务，我们专注于模型在英语和普通话之间准确翻译医学和化学文本的能力。这项任务涉及处理专业词汇和技术表达，这是一个巨大的挑战，需要高级的理解和生成能力。我们将把我们的模型与该领域的领先模型进行基准测试，以证明其在翻译复杂的特定领域内容方面的有效性和准确性。

北美药剂师执照考试（NAPLEX）

北美药剂师执照考试 (NAPLEX) 部分测试模型对制药知识的理解及其在实践中的应用。为了评估模型的性能，我们模拟现实场景并结合过去考试中的问题。这种方法有助于评估模型提供准确且相关响应的能力，从而展示其在专业制药环境中的潜在效用。

Model	PharmGPT 0.1	PharmGPT 0.3	PharmGPT 0.5	PharmGPT 0.7
NAPLEX I	5	42	57	66
NAPLEX II	2.5	48	59	68
NAPLEX III	3.5	46.5	58	76

表 4： ChatGPT-3.5 Turbo、GPT-4 和 Pharm GPT 在 NAPLEX 中的结果。

中药师考试

同样，我们评估了该模型在中国药剂师考试中的表现，重点关注其理解和回答普通话问题的能力。这不仅测试了语言能力，还测试了模型对中国医疗保健系统中应用的药理学原理的理解。该方法对人工智能在中国医师执照考试中的应用进行了全面分析。

中药师考试

同样，我们评估了大语言模型在中国药剂师考试中的表现，特别关注其理解和准确回答普通话问题的能力。此次评估不仅测试了模型的语言能力，还测试了其对药理学原理的理解深度，因为这些原理在中国医疗保健系统中得到了具体应用。我们的方法旨在详细分析人工智能在应对中国复杂的医疗执照考试方面的潜在应用。这种严格的评估有助于确定该模型是否已准备好在该地区的专业环境中进行实际部署。

4.2结果

4.2.1北美药剂师执照考试

受到 Angel 等人 Angel 等人 (2023) 工作的启发，我们使用 NAPLEX 考试数据集对我们的模型 PharmGPT 与其他模型进行了比较分析。这种方法不仅在现实场景中对我们的模型的能力进行了基准测试，而且还突显了其在临床和制药应用中的潜力。

一致的高性能在所有三个 NAPLEX 部分中，PharmGPT 模型的得分在 70-80% 范围内。这种一致的表现证明了模型在许可审查环境中理解和应用制药知识的强大能力。高分表明 PharmGPT 模型已经在全面的制药文献和实践材料语料库上得到了有效的训练。

优于 GPT-3.5-turbo 在所有 NAPLEX 部分中，两种 PharmGPT 模型均显着优于 GPT-3.5-turbo。这种性能差距凸显了针对制药 NLP 任务的特定领域训练的优势。虽然 GPT-3.5-turbo 是一种功能强大的通用语言模型，但其在制药领域缺乏针对性的训练限制了其与 NAPLEX 上专门的 PharmGPT 模型竞争的能力。

迭代模型改进比较两个 PharmGPT 版本，PharmGPT 0.7 在所有 NAPLEX 部分中始终获得比 PharmGPT 0.5 更高的分数。这一改进证明了迭代后训练、微调和优化在增强模型的药物知识和检查性能方面的价值。随着 PharmGPT 模型的不断完善，它很可能会进一步提高其理解和响应复杂制药问题的能力。

总之，PharmGPT 模型在北美药剂师执照考试中表现出色，展示了制药 NLP 领域特定训练的优势。它们相对于 GPT-3.5-turbo 的优越性以及版本之间的迭代改进凸显了专业语言模型支持和增强药物研究和行业的潜力。随着 PharmGPT 模型的不断发展，它们有望为整个制药领域的进步做出贡献。

4.2.2中国药师考试

强大的特定领域表现在所有四个考试类别中，两种 PharmGPT 模型的得分都在 70-80% 范围内，展示了在制药知识和相关领域的强大能力。这种始终如一的高性能表明 PharmGPT 模型已经在大量相关生物医学和制药文献的基础上进行了有效的微调。

优于 GPT-3.5-turbo 在所有考试类别中，PharmGPT 模型的性能都远远超过了 GPT-3.5-turbo。这表明与更通用的 GPT-3.5 模型相比，PharmGPT 的特定领域训练可转化为在制药知识测试中的卓越表现。

在关键领域优于 GPT-4 值得注意的是，PharmGPT 模型在四个类别中的得分高于 GPT-4。考虑到 GPT-4 的规模要大得多，这令人印象深刻，并且表明 PharmGPT 的集中训练方案使其能够在无需大量计算资源的情况下与 GPT-4 的制药知识相媲美。

版本比较和改进比较两个 PharmGPT 版本，PharmGPT 0.7 在所有类别中始终优于 PharmGPT 0.5。这表明 PharmGPT 模型的迭代后训练、微调和优化可以在制药领域带来有意义的性能提升。

总之，结果凸显了 PharmGPT 模型在中国药师考试中的强劲表现，展示了其在捕捉和应用药学知识方面的有效性。特定领域的训练方法使 PharmGPT 在关键领域超越了 GPT-3.5-turbo 和 GPT-4，同时运行规模较小。这使得 PharmGPT 成为制药 NLP 任务的强大工具，提供高精度和高效率。随着该模型的不断完善，它为支持和推进药物研究和应用带来了巨大的希望。

4.2.3 指定域的翻译

在自然语言处理（NLP）领域，由于所需的复杂术语和特定领域知识，生物医学论文的翻译带来了独特的挑战。本节旨在比较各种语言模型在翻译生物医学论文方面的性能与我们的 PharmGPT0.7 模型。

PharmGPT0.7、GPT3.5、CLAUDE3 和 GOOGLE 四种语言模型的性能在生物医学论文翻译任务中进行了评估。这些模型在三个粒度级别进行评估：段落、句子和单词。使用 BLEU Papineni 等人 (2002) 量化翻译质量，分数越高表明性能越好。

PharmGPT0.7 在翻译生物医学论文方面比其他语言模型表现出明显的优势。在段落级别，PharmGPT0.7 取得了令人印象深刻的 30 分，优于 GPT3.5 (27)、CLAUDE3 (26) 和 GOOGLE (27)。这一趋势在词级别上持续存在，PharmGPT0.7 的得分保持在 10 分，而 GPT3.5、CLAUDE3 和 GOOGLE 的得分分别为 8、9 和 9。即使在句子级别，PharmGPT0.7 也表现出色，得分为 18，大大高于 GPT3.5 (15)、CLAUDE3 (16)。

结果凸显了 PharmGPT0.7 在翻译生物医学论文方面的卓越性能。其一致的粒度领先表明 PharmGPT0.7 非常适合捕捉生物医学语言的细微差别和复杂性。该模型能够在段落、句子和单词级别保持较高的翻译质量，这表明其对生物医学论文中各种上下文的稳健性和适应性。

有几个因素可能促成 PharmGPT0.7 的卓越性能。首先，该模型的预训练过程可能涉及大量生物医学文本，使其能够获取特定领域的知识和术语。其次，PharmGPT0.7 中采用的架构和训练技术对于处理复杂的生物医学语言可能特别有效。最后，该模型能够捕获远程依赖性并保持较大文本单元（即段落）之间的连贯性，这可能有利于翻译复杂的科学内容。

这一对比分析证明了 PharmGPT0.7 在翻译生物医学论文方面的出色表现。它在段落、句子和单词级别上的一致领先优势凸显了它作为生物医学领域研究人员和专业人士的宝贵工具的潜力。需要进一步研究来探索 PharmGPT0.7 成功的因素，并研究其对其他特定领域翻译任务的适用性。

4.2.4 缩放法则

此外，经验证据表明，语言模型的有效性通常会随着其规模的增加而提高——表现出可预测的 Hestness 等人 (2017)； Kaplan 等人 (2020); Hoffmann 等人 (2022) 和偶尔的突然增强 Wei 等人 (2022) 催化了更大规模模型的趋势 Wang 等人 (2021)； Altaher 等人 (2022); Madabushi 等人 (2022); Tay 等人 (2022)。这一观察强调了模型维度和性能之间的关键关系，强调了向增强模型能力以实现卓越结果的战略转变。如表4所示，趋势很明显：随着我们训练的模型参数规模的增加，我们的 PharmGPT 在美国 NAPLEX 和中国药品检验数据集上的表现不断提高，最终超越GPT。随着模型尺寸的增加，性能的增强凸显了大语言模型在生物医学和化学领域的潜力，凸显了 PharmGPT 在专业领域取得卓越成果的能力。

4.2.5 限制

虽然我们的实验设计很全面，但我们承认存在一些局限性。其中包括训练数据中的潜在偏差、模型对输入提示的质量和多样性的依赖，以及在没有领域专家评估的情况下准确评估高度专业化任务的表现相关的挑战。此外，与任何大语言模型一样，仍然存在可解释性问题以及其在医疗保健和制药等敏感领域的使用的伦理影响。

5结论

在这项工作中，我们提出了 PharmGPT，一种串行多语言语言模型。 PharmGPT 由我们的大型语言模型团队创建，该团队由数十名研究人员合作组成。在本文中，我们记录了 PharmGPT 的开发，从训练数据集的创建到架构的设计。我们还讨论了 PharmGPT 和其他大型语言模型的评估结果，发现它在多任务微调后具有改进的竞争性能。

我们希望这些产品建立在我们强大的多语言语言域模型的基础上，为大型语言模型解锁新的应用和研究方向。此外，我们希望记录我们的经验将有助于机器学习研究社区组织类似于 PharmGPT 的新的大型合作项目。除了能够取得任何单个研究小组不可能取得的成果外，这种组织形式还将让更多不同背景的人分享他们的想法，参与该领域重大进展的发展。

道德声明

不存在道德问题。

参考

Al-Rfou et al. [2019] Rami Al-Rfou, Dokook Choe, Noah Constant, Mandy Guo, and Llion Jones. Character-level language modeling with deeper self-attention. In Proceedings of the AAAI conference on artificial intelligence, volume 33, pages 3159–3166, 2019.
Altaher et al. [2022] Yousef Altaher, Ali Fadel, Mazen Alotaibi, Mazen Alyazidi, Mishari Al-Mutairi, Mutlaq Aldhbuiub, Abdulrahman Mosaibah, Abdelrahman Rezk, Abdulrazzaq Alhendi, Mazen Abo Shal, et al. Masader plus: A new interface for exploring+ 500 arabic nlp datasets. arXiv preprint arXiv:2208.00932, 2022.
Angel et al. [2023] Mirana Angel, Anuj Patel, Amal Alachkar, and Pierre Baldi. Clinical knowledge and reasoning abilities of large language models in pharmacy: A comparative study on the naplex exam. In 2023 Tenth International Conference on Social Networks Analysis, Management and Security (SNAMS), pages 1–4. IEEE, 2023.
Bai et al. [2022] Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862, 2022.
Beltagy et al. [2019] Iz Beltagy, Kyle Lo, and Arman Cohan. Scibert: A pretrained language model for scientific text. arXiv preprint arXiv:1903.10676, 2019.
Bender et al. [2021] Emily M Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM conference on fairness, accountability, and transparency, pages 610–623, 2021.
Bengio et al. [2000] Yoshua Bengio, Réjean Ducharme, and Pascal Vincent. A neural probabilistic language model. Advances in neural information processing systems, 13, 2000.
Brown et al. [2020] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
Chithrananda et al. [2020] Seyone Chithrananda, Gabriel Grand, and Bharath Ramsundar. Chemberta: large-scale self-supervised pretraining for molecular property prediction. arXiv preprint arXiv:2010.09885, 2020.
Chowdhery et al. [2023] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. Palm: Scaling language modeling with pathways. Journal of Machine Learning Research, 24(240):1–113, 2023.
Collobert et al. [2011] Ronan Collobert, Jason Weston, Léon Bottou, Michael Karlen, Koray Kavukcuoglu, and Pavel Kuksa. Natural language processing (almost) from scratch. Journal of machine learning research, 12:2493–2537, 2011.
Devlin et al. [2018] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
Graves [2013] Alex Graves. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850, 2013.
Hestness et al. [2017] Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory Diamos, Heewoo Jun, Hassan Kianinejad, Md Mostofa Ali Patwary, Yang Yang, and Yanqi Zhou. Deep learning scaling is predictable, empirically. arXiv preprint arXiv:1712.00409, 2017.
Hoffmann et al. [2022] Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. arXiv preprint arXiv:2203.15556, 2022.
Howard and Ruder [2018] Jeremy Howard and Sebastian Ruder. Universal language model fine-tuning for text classification. arXiv preprint arXiv:1801.06146, 2018.
Jernite et al. [2022] Yacine Jernite, Huu Nguyen, Stella Biderman, Anna Rogers, Maraim Masoud, Valentin Danchev, Samson Tan, Alexandra Sasha Luccioni, Nishant Subramani, Isaac Johnson, et al. Data governance in the age of large-scale data-driven language technology. In Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency, pages 2206–2222, 2022.
Kaplan et al. [2020] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
Karpov et al. [2020] Pavel Karpov, Guillaume Godin, and Igor V Tetko. Transformer-cnn: Swiss knife for qsar modeling and interpretation. Journal of cheminformatics, 12:1–12, 2020.
Kim et al. [2021] Boseop Kim, HyoungSeok Kim, Sang-Woo Lee, Gichang Lee, Donghyun Kwak, Dong Hyeon Jeon, Sunghyun Park, Sungju Kim, Seonhoon Kim, Dongpil Seo, et al. What changes can large-scale language models bring? intensive study on hyperclova: Billions-scale korean generative pretrained transformers. arXiv preprint arXiv:2109.04650, 2021.
Kudo and Richardson [2018] Taku Kudo and John Richardson. Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. arXiv preprint arXiv:1808.06226, 2018.
Lee et al. [2020] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, and Jaewoo Kang. Biobert: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 36(4):1234–1240, 2020.
Lewis et al. [2019] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, and Luke Zettlemoyer. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. arXiv preprint arXiv:1910.13461, 2019.
Liu et al. [2019] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019.
Madabushi et al. [2022] Harish Tayyar Madabushi, Edward Gow-Smith, Marcos Garcia, Carolina Scarton, Marco Idiart, and Aline Villavicencio. Semeval-2022 task 2: Multilingual idiomaticity detection and sentence embedding. arXiv preprint arXiv:2204.10050, 2022.
Mielke et al. [2021] Sabrina J Mielke, Zaid Alyafeai, Elizabeth Salesky, Colin Raffel, Manan Dey, Matthias Gallé, Arun Raja, Chenglei Si, Wilson Y Lee, Benoît Sagot, et al. Between words and characters: A brief history of open-vocabulary modeling and tokenization in nlp. arXiv preprint arXiv:2112.10508, 2021.
Miikkulainen and Dyer [1991] Risto Miikkulainen and Michael G Dyer. Natural language processing with modular pdp networks and distributed lexicon. Cognitive Science, 15(3):343–399, 1991.
Mikolov et al. [2010] Tomas Mikolov, Martin Karafiát, Lukas Burget, Jan Cernockỳ, and Sanjeev Khudanpur. Recurrent neural network based language model. In Interspeech, volume 2, pages 1045–1048. Makuhari, 2010.
Mikolov et al. [2013] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. Advances in neural information processing systems, 26, 2013.
Nguyen et al. [2024] Eric Nguyen, Michael Poli, Marjan Faizi, Armin Thomas, Michael Wornow, Callum Birch-Sykes, Stefano Massaroli, Aman Patel, Clayton Rabideau, Yoshua Bengio, et al. Hyenadna: Long-range genomic sequence modeling at single nucleotide resolution. Advances in neural information processing systems, 36, 2024.
Ouyang et al. [2022] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.
Papineni et al. [2002] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pages 311–318, 2002.
Pennington et al. [2014] Jeffrey Pennington, Richard Socher, and Christopher D Manning. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543, 2014.
Peters et al. [2018] Matthew E Peters, Mark Neumann, Luke Zettlemoyer, and Wen-tau Yih. Dissecting contextual word embeddings: Architecture and representation. arXiv preprint arXiv:1808.08949, 2018.
Radford et al. [2018] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, et al. Improving language understanding by generative pre-training. 2018.
Radford et al. [2019] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.
Rae et al. [2021] Jack W Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training gopher. arXiv preprint arXiv:2112.11446, 2021.
Raffel et al. [2020] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21(140):1–67, 2020.
Sanh et al. [2021] Victor Sanh, Albert Webson, Colin Raffel, Stephen H Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207, 2021.
Sarzynska-Wawer et al. [2021] Justyna Sarzynska-Wawer, Aleksander Wawer, Aleksandra Pawlak, Julia Szymanowska, Izabela Stefaniak, Michal Jarkiewicz, and Lukasz Okruszek. Detecting formal thought disorder by deep contextualized word representations. Psychiatry Research, 304:114135, 2021.
Schmidhuber and Heil [1996] Jürgen Schmidhuber and Stefan Heil. Sequential neural text compression. IEEE Transactions on Neural Networks, 7(1):142–146, 1996.
Schulman et al. [2017] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
Segler et al. [2018] Marwin HS Segler, Mike Preuss, and Mark P Waller. Planning chemical syntheses with deep neural networks and symbolic ai. Nature, 555(7698):604–610, 2018.
Shahbaz et al. [2019] Muhammad Shahbaz, Lalith Suresh, Jennifer Rexford, Nick Feamster, Ori Rottenstreich, and Mukesh Hira. Elmo: Source routed multicast for public clouds. In Proceedings of the ACM Special Interest Group on Data Communication, pages 458–471. 2019.
Shibata et al. [1999] Yusuxke Shibata, Takuya Kida, Shuichi Fukamachi, Masayuki Takeda, Ayumi Shinohara, Takeshi Shinohara, and Setsuo Arikawa. Byte pair encoding: A text compression scheme that accelerates pattern matching. 1999.
Shoeybi et al. [2019] Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, and Bryan Catanzaro. Megatron-lm: Training multi-billion parameter language models using model parallelism. arXiv preprint arXiv:1909.08053, 2019.
Smith et al. [2022] Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, et al. Using deepspeed and megatron to train megatron-turing nlg 530b, a large-scale generative language model. arXiv preprint arXiv:2201.11990, 2022.
Sutskever et al. [2011] Ilya Sutskever, James Martens, and Geoffrey E Hinton. Generating text with recurrent neural networks. In Proceedings of the 28th international conference on machine learning (ICML-11), pages 1017–1024, 2011.
Tay et al. [2022] Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q Tran, David R So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, et al. Transcending scaling laws with 0.1% extra compute. arXiv preprint arXiv:2210.11399, 2022.
Vaswani et al. [2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
Vinyals and Le [2015] Oriol Vinyals and Quoc Le. A neural conversational model. arXiv preprint arXiv:1506.05869, 2015.
Wang et al. [2021] Shuohuan Wang, Yu Sun, Yang Xiang, Zhihua Wu, Siyu Ding, Weibao Gong, Shikun Feng, Junyuan Shang, Yanbin Zhao, Chao Pang, et al. Ernie 3.0 titan: Exploring larger-scale knowledge enhanced pre-training for language understanding and generation. arXiv preprint arXiv:2112.12731, 2021.
Wang et al. [2023a] Guan Wang, Sijie Cheng, Xianyuan Zhan, Xiangang Li, Sen Song, and Yang Liu. Openchat: Advancing open-source language models with mixed-quality data. arXiv preprint arXiv:2309.11235, 2023.
Wang et al. [2023b] Xi Wang, Ruichu Gu, Zhiyuan Chen, Yongge Li, Xiaohong Ji, Guolin Ke, and Han Wen. Uni-rna: universal pre-trained models revolutionize rna research. bioRxiv, pages 2023–07, 2023.
Wei et al. [2022] Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, et al. Emergent abilities of large language models. arXiv preprint arXiv:2206.07682, 2022.
Yang et al. [2019] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov, and Quoc V Le. Xlnet: Generalized autoregressive pretraining for language understanding. Advances in neural information processing systems, 32, 2019.
Zeng et al. [2016] Haoyang Zeng, Matthew D Edwards, Ge Liu, and David K Gifford. Convolutional neural network architectures for predicting dna–protein binding. Bioinformatics, 32(12):i121–i127, 2016.
Zeng et al. [2021] Wei Zeng, Xiaozhe Ren, Teng Su, Hui Wang, Yi Liao, Zhiwei Wang, Xin Jiang, ZhenZhang Yang, Kaisheng Wang, Xiaoda Zhang, et al. Pangu- $a l p h a$ : Large-scale autoregressive pretrained chinese language models with auto-parallel computation. arXiv preprint arXiv:2104.12369, 2021.
Zeng et al. [2022] Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, et al. Glm-130b: An open bilingual pre-trained model. arXiv preprint arXiv:2210.02414, 2022.
Zhang et al. [2019] Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, and Qun Liu. Ernie: Enhanced language representation with informative entities. arXiv preprint arXiv:1905.07129, 2019.
Zhang et al. [2022] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, et al. Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068, 2022.
Zhang et al. [2023] Daoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, and Jianhua Yao. Dnagpt: A generalized pretrained tool for multiple dna sequence analysis tasks. bioRxiv, pages 2023–07, 2023.
Zhao et al. [2020] Wei Zhao, Goran Glavaš, Maxime Peyrard, Yang Gao, Robert West, and Steffen Eger. On the limitations of cross-lingual encoders as exposed by reference-free machine translation evaluation. arXiv preprint arXiv:2005.01196, 2020.

附录

案例研究

UTF8gbsn

Language	PharmGPT0.7
ZH	用户：
	GP化疗联合免疫治疗药物一般是哪些?
	PharmGPT:
	GP化疗(吉西他滨+顺铂)是一种常用的化疗方案,通常用于治疗非小细胞肺癌、食管癌、胃癌等肿瘤。由于其作用机制与免疫治疗药物有所不同,因此GP化疗联合免疫治疗药物的临床应用相对较少。
	然而,在某些情况下,GP化疗可能会与免疫治疗药物结合使用,以增强治疗效果。以下是一些可能的组合:
	1. GP化疗+PD-1/PD-L1抑制剂:PD-1/PD-L1抑制剂可以增强免疫系统对肿瘤细胞的攻击能力。与GP化疗联合使用时可能会产生协同作用,例如, Nivolumab (Opdivo) 和Pembrolizumab (Keytruda)
	等PD-1抑制剂已被批准用于治疗多种癌症类型,包括非小细胞肺癌、黑色素瘤等。
	2. GP化疗+CTLA-4抑制剂: CTLA-4抑制剂可以阻止肿瘤细胞逃避免疫系统的监控,与GP化疗联合使用时可能会提高治疗效果。例如, Ipilimumab (Yervoy) 是一种CTLA-4抑制剂,已被批准用于治
	疗转移性黑色素瘤。
	3. GP化疗+VEGF抑制剂:血管内皮生长因子(VEGF)抑制剂可以阻止肿瘤细胞通过新生血管获取营养物质,与GP化疗联合使用时可能会增强抗肿瘤活性。例如, Bevacizumab (Avastin) 是一种VEGF
	抑制剂,已被批准用于治疗多种癌症类型,包括结直肠癌、非小细胞肺癌等。
	需要注意的是,由于每个患者的情况不同,因此具体的治疗方案应由医生根据患者的病情、病史等因素综合考虑后决定。
EN	User:
	What are the common immunotherapy drugs combined with GP chemotherapy?
	PharmGPT:
	GP chemotherapy (gemcitabine + cisplatin) is a commonly used chemotherapy regimen, usually for treating non-small cell lung cancer, esophageal cancer, gastric cancer, and other tumors. Due to its different
	mechanism of action compared to immunotherapy drugs, the clinical application of GP chemotherapy combined with immunotherapy drugs is relatively rare.
	However, in some cases, GP chemotherapy may be combined with immunotherapy drugs to enhance the treatment effect. The following are some possible combinations:
	1. GP chemotherapy + PD-1/PD-L1 inhibitors: PD-1/PD-L1 inhibitors can enhance the immune system’s ability to attack tumor cells. When used in combination with GP chemotherapy, they may produce
	a synergistic effect. For example, Nivolumab (Opdivo) and Pembrolizumab (Keytruda)
	and other PD-1 inhibitors have been approved for the treatment of various cancer types, including non-small cell lung cancer, melanoma, etc.
	2. GP chemotherapy + CTLA-4 inhibitors: CTLA-4 inhibitors can prevent tumor cells from escaping immune system surveillance. When used in combination with GP chemotherapy, they may improve the
	treatment effect. For example, Ipilimumab (Yervoy) is a CTLA-4 inhibitor that has been approved for the treatment of
	metastatic melanoma.
	3. GP chemotherapy + VEGF inhibitors: Vascular endothelial growth factor (VEGF) inhibitors can prevent tumor cells from obtaining nutrients through neovascularization. When used in combination with
	GP chemotherapy, they may enhance anti-tumor activity. For example, Bevacizumab (Avastin) is a VEGF
	inhibitor that has been approved for the treatment of various cancer types, including colorectal cancer, non-small cell lung cancer, etc.
	It should be noted that due to the different conditions of each patient, the specific treatment plan should be determined by the doctor after comprehensive consideration of the patient’s condition, medical history, and other factors.

表 5：案例分析。

在本节中，我们详细介绍了证明 PharmGPT0.7 卓越功能的具体示例，特别是在生物医学和肿瘤治疗领域。这些实例凸显了该模型在处理和阐明复杂的特定领域信息方面的先进能力，这为生物医学领域人工智能驱动的数据解释设立了新的行业标准。

PharmGPT0.7的详细反应分析：PharmGPT0.7对关于GP化疗联合免疫治疗的中文（ZH）和英语（EN）查询提供的答复说明了其卓越的熟练程度。 GP化疗由吉西他滨和顺铂组成，是一种因其对非小细胞肺癌、食道癌和胃癌等多种肿瘤有效而闻名的治疗方案。

专业性和深度：PharmGPT0.7不仅确定了GP化疗与免疫治疗药物的典型组合，还解释了这些治疗在临床相关背景下的协同作用：

•

PD-1/PD-L1 抑制剂：该模型正确识别了 Nivolumab 和 Pembrolizumab 等药物，解释了它们增强免疫系统对抗肿瘤细胞能力的机制，这对肿瘤学家来说是至关重要的信息。
•

CTLA-4 抑制剂：PharmGPT0.7 详细介绍了 Ipilimumab 等 CTLA-4 抑制剂在防止肿瘤细胞逃避免疫监视方面的作用，为它们与化疗的组合提供了可行的见解。
•

VEGF 抑制剂：通过提及贝伐单抗及其在抑制新生血管形成中的作用，该模型展示了对血管生成抑制剂如何补充细胞毒性化疗的深刻理解。

临床相关性：PharmGPT0.7 进一步增强了其反应，指出特定免疫治疗药物与 GP 化疗的选择必须个性化，同时考虑到患者的病史和当前的健康状况。这种方法反映了对肿瘤学的深入理解，其中治疗定制至关重要。

与其他模型的比较：与其他模型不同，PharmGpt0.7的回答不仅内容丰富，而且还经过专门定制，以反映肿瘤学的最新趋势和临床试验。这使得医疗保健专业人员能够接收最新和相关的信息，有助于更好的决策过程。

结论：PharmGPT0.7 详细、准确且与上下文相关的响应使其在生物医学人工智能驱动工具领域中脱颖而出，使其成为需要最新详细信息以做出明智临床决策的专业人士的宝贵资源。

C. MMLU 数据集上的比较

我们使用广泛认可的 MMLU 数据集，对我们的模型 PharmGPT 与领先的大型语言模型（大语言模型）（例如 GPT-4）进行了比较分析。我们的发现有两个方面：首先，尽管 PharmGPT 的参数比同类产品少得多，但它在一般能力方面取得了令人印象深刻的结果。其次，它在生物医学、化学及相关领域等专业领域表现出卓越的熟练程度，超越了通用大型模型的先进能力。

整体强劲表现 PharmGPT 在几乎所有任务中始终保持 MMLU 分数在 80-90% 范围内，这说明了其在生物医学和生命科学领域的强大能力。这种高性能表明对大量相关科学文献进行了有效的微调。

优于 GPT-3.5-turbo 在大多数任务中，特别是与生物学、医学、解剖学和生理学相关的任务中，PharmGPT 不仅取得了比 GPT-3.5-turbo 更高的分数，而且往往还具有显着优势。这凸显了特定领域训练的好处，与 GPT-3.5 等更通用的模型相比，它增强了 PharmGPT 在生物医学问答方面的性能。

与 GPT-4 相当值得注意的是，PharmGPT 在广泛的主题上的得分与 GPT-4 非常接近，并且在生理学、健康科学和生物学等领域略胜于 GPT-4。考虑到 GPT-4 的规模更大，这一成就尤其令人印象深刻，这表明 PharmGPT 的集中训练方案使其能够匹配甚至偶尔超越 GPT-4 的生物医学知识，而无需大量的计算资源。

需要改进的领域尽管 PharmGPT 具有优势，但它在世界宗教、哲学和其他杂项领域等主题上仍有改进的空间，在这些领域它明显落后于 GPT-4。这种限制可能反映了 PharmGPT 训练数据的范围和性质。然而，考虑到该模型的专业重点，非核心科目的这种轻微表现不佳是可以理解的，并且不会影响其在生物医学应用中的整体有效性。

结果强调了 PharmGPT 在生物医学语言理解方面的最先进性能，将其定位为特定领域 NLP 任务的强大工具。其集中的训练方法不仅使其能够超越 GPT-3.5，而且还可以匹配甚至在某些情况下超过 GPT-4 在关键生命科学和医疗保健主题方面的能力，同时以较小的规模运行。这使得 PharmGPT 对于在 NLP 实施中寻求高精度和高效率的生物医学研究人员和组织来说成为一个有吸引力的选择。