LawGPT:中国法律知识增强的大语言模型

Zhi Zhou1†, Jiang-Xin Shi12†, Peng-Xiao Song1†, Xiao-Wen Yang12†,
Yi-Xuan Jin1, Lan-Zhe Guo13‡, Yu-Feng Li12‡
1
National Key Laboratory for Novel Software Technology, Nanjing University
2School of Artifical Intelligence, Nanjing University
3School of Intelligence Science and Technology, Nanjing University
{zhouz,shijx,songpx,yangxw,jinyx,guolz,liyf}@lamda.nju.edu.cn
Equal Contribution Corresponding Author
摘要

大型语言模型(大语言模型),包括专有模型和开源模型,在解决各种下游任务方面表现出了卓越的能力。 然而,当涉及到中国的实际法律任务时,这些模式并不能满足实际要求。 专有模型无法确保敏感法律案件的数据隐私,而开源模型由于缺乏法律知识而表现不佳。 为了解决这个问题,我们推出了LawGPT,这是第一个专为中国法律应用设计的开源模型。 LawGPT由两个关键部分组成:面向法律的预训练和法律监督的微调。 具体来说,我们采用大规模的中国法律文献进行面向法律的预训练,融入法律领域知识。 为了进一步提高模型在下游法律任务上的性能,我们创建了一个知识驱动的指令数据集,用于法律监督微调。 我们的实验结果表明 LawGPT 优于开源 LLaMA 7B 模型。 我们的代码和资源在 https://github.com/pengxiao-song/LaWGPT 上公开提供,并在 GitHub 上获得了 5700 颗星。

1简介

大语言模型(大语言模型)(OpenAI,2023b;Touvron 等人,2023b)在各种自然语言处理(NLP)任务中取得了显着的成功,包括自然语言理解(Dong 等)人,2019),推理(Huang and Chang,2023),以及生成(Yu 等人,2022) 自研和开源大语言模型均表现出强大的泛化能力,使其能够应用于不同的下游场景,例如医药(Thirunavukarasu 等人,2023)、金融(Yang 等人,2023b) )、教育(Gan 等人, 2023) 最近的研究(Fei 等人, 2023; Nguyen, 2023)证明了现有通用大语言模型在法律任务中的知识有效性,包括法律判决预测(Luo 等人, 2017) 、法律文献检索(陈等人,2013)、法律问答(钟等人,2020a)

尽管大语言模型在法律应用中具有一定的知识有效性,但仍存在两个障碍阻碍其在法律任务中的实际使用。 一方面,专有的大语言模型如GPT-4 (OpenAI, 2023b)和GPT-3.5 Turbo (OpenAI, 2023a)只能通过API访问,这不能保证敏感法律案件中的数据隐私。 另一方面,像 LLaMA (Touvron 等人, 2023a) 和 ChatGLM (Du 等人, 2022) 这样的开源大语言模型由于以下原因未能取得令人满意的性能:法律知识不足,与下游法律任务不相适应。 因此,有必要开发一个专门为法律应用而设计的开源大语言模型,以克服现有的障碍。

在本文中,我们介绍了第一个开源的中文法律知识增强大语言模型LawGPT 与专有模型相比,凭借开源的优势,LawGPT可以自行托管和私密访问,以确保数据隐私。 然后,我们提出了面向法律的预训练,利用我们的大规模法律预训练语料库,将特定领域的法律知识融入到LawGPT中,提高其对法律的理解、推理和生成基础能力。任务。 此外,我们提出法律监督微调,利用我们的知识驱动指令数据集进一步增强 LawGPT 在下游法律任务上的性能。 实验结果表明,LawGPT在重大法律任务中超越了开源LLaMA 7B模型,为中国实用法律大语言模型的发展提供了启示。

总而言之,我们的贡献可概括如下:

  1. (A)

    我们提出第一个开源的中文法律知识增强大语言模型LawGPT 代码和模型可在 GitHub 上获取 111https://github.com/pengxiao-song/LaWGPT 并已获得 5700 颗星。

  2. (二)

    我们构建了一个全面的法律预训练语料库,并提出了一种以法律为导向的预训练方法,通过整合特定领域的知识来增强LawGPT在法律任务中的基础能力。

  3. (C)

    我们创建了一个知识驱动的指令数据集,并利用法律监督微调来进一步使 LawGPT 适应各种法律任务并提高其下游性能。

  4. (四)

    我们的实验结果表明,LawGPT在主要法律任务中比开源LLaMA 7B模型取得了更好的性能,为我们提出的模型的有效性提供了有力的证据。

2相关工作

在本节中,我们回顾了使用大语言模型解决法律任务的现有工作。 重点是通用语言模型、法律语言模型和法律基准,如下所示。

2.1 通用语言模型

受益于大规模语料库的训练,最近的大语言模型在包括法律任务在内的各种下游任务上都表现出了令人印象深刻的表现。 最近的大语言模型在广泛的语料库上进行了训练,在各种下游任务(包括法律领域的任务)中表现出了令人印象深刻的性能。 专有大语言模型,如GPT-4 (OpenAI, 2023b)、GPT-3.5-Turbo (OpenAI, 2023a)、PaLM (Chowdhery 等人、 2023)、PaLM2 (Anil 等人, 2023),展现出强大的处理法律任务的能力。 它们令人印象深刻的表现不仅展示了大语言模型在解决法律任务方面的潜力,而且促进了高质量数据集的低成本、自动化构建。 同时开源大语言模型,如LLaMA (Touvron 等人, 2023a)、LLaMA2 (Touvron 等人, 2023b)、MPT (Team, 2023)、ChatGLM 2 (杜等人, 2022)、百川 2 (杨等人, 2023a) 提供多种模型比例。 这些开源模型有助于使用目标法律数据集对特定法律模型进行微调,从而有可能提高性能。

2.2 法律语言模型

法律语言模型是基于预先训练的语言模型进行微调,或者使用法律相关数据从头开始训练,以提高模型的法律能力。 该领域的早期研究利用具有数百万参数的模型架构来完成各种法律任务。 为了分别解决这些任务,我们付出了巨大的努力。 其中包括法律判决预测(罗等人,2017;Chalkidis等人,2019;杨等人,2019)、法律文献与案例检索(陈等人,2013;邵等人) , 2020; Li 等人, 2023)、法律阅读理解(Duan 等人, 2019)、法律问答(Zhong 等人, 2020a; Phi 等人, 2020) 借助预训练模型(Chalkidis 等人,2020;Cui 等人,2021),Lawformer (Xiao 等人,2021)结合了三种注意力机制来解决法律文件过长、涵盖多种法律任务的问题。 大语言模型的最新进展催生了法律大语言模型工作。 韩飞 (何 等人, 2023)、LexiLaw (李 等人, 2023)、LawGPT-zh (洪城 等人, 2023), LawGPT-1.0 (Nguyen, 2023) 威胁基础大语言模型,使用专门构建或收集的法律语料库来增强法律能力。 针对法律任务中的幻觉问题,ChatLaw (Cui 等人, 2023a)、Wisdom-Interrogatory (Wu 等人, 2024)、Lawyer 等大语言模型-LLaMA (Huang 等人, 2023) 采用合法的数据检索方法来提高其响应的稳健性。 LawGiBa(Nguyen 等人, 2023)基于GPT-4模型,建立了法律体系。 夫子明查(邓等人,2023)创建了合法的三段论推理数据集进行微调,以确保逻辑格式和准确的推理结果。

2.3法律基准

随着用于法律任务的巨大语言模型的出现,人们提出了一些基准来评估各种现有模型。 LawBench(费等人,2023)收集了法律知识记忆、理解、运用三个认知层面的20个法律任务,全面评估现有模型的表现。 LAiW (戴等人, 2023)包含14个任务,从基础信息检索、法律基础推理、复杂法律应用三个层面评估大语言模型的法律能力。 SimuCourt(何等人,2024)引入了司法决策任务来评估大语言模型的司法分析和决策能力。

3方法论

Example 1: Legal Pre-training Corpus UTF8gbsn 上诉人*********(以下简称**学校)因与被上诉人************(以下简称**公司)装饰装修合同纠纷一案,不服*********人民法院(20xx)辽****民初****号民事判决,向本院提起上诉。本院依法组成合议庭审理了本案。本院认为 本院认为,一审判决程序违法。 1.**学校一审反诉请求解除装修合同及空调合同,一审仅判决解除装修合同,空调合同应否解除未予审理,属漏审漏判;一审双方当事人均未提出解除案涉补充协议,一审判决解除补充协议,超出当事人的诉请; 2.**学校一审反诉请求要求**公司按已付工程款数额开具发票,一审仅判决**公司给付欠付款项的发票,亦属漏审漏判; 3.**公司起诉状中明确了监控布线款为15600元,在**公司未提出变更诉讼请求的情况下,一审按照鉴定结论中的数额认定监控布线损失为32868.85元,亦属超出当事人的诉请。 一审判决认定事实不清。案涉工程两个施工合同均为固定总价合同,一审判决**公司给付**学校欠付工程款258449.56元依据的鉴定结论计算方式错误,且装修合同和空调合同应分别计算。另外,案涉已完工程造价鉴定中是否包含了已施工与图纸不符、质量不合格修复部位的工程造价?已施工与图纸不符、质量不合格修复费用的鉴定结论是否为修复到施工前的原始状态?重审时需补充鉴定。 一审重审时应围绕双方当事人的诉讼请求,合理分配举证责任,在查清事实的基础上依法裁判。 综上,依照《中华人民共和国民事诉讼法》第一百七十七条第一款第(三)、(四)项之规定,裁定如下:判决结果 一、撤销*********人民法院作出的(20xx)辽****民初****号民事判决; 二、本案发回*********人民法院重审。 上诉人*********学校预交的二审案件受理费6579元予以退回。
Example 2: Legal-supervised Dataset - Subset (a) UTF8gbsn Instruction: 请问我向借钱人要钱多次未果,向法院起诉,法院多久才立案 Output: 起诉的当日 ,法院就会立案的。
Example 3: Legal-supervised Dataset - Subset (b) UTF8gbsn Instruction: 根据《中华人民共和国海商法》,在海事关系的法律适用中,旗国法适用于下列哪些情形? (A) 船舶抵押权的设定 (B) 同国籍船舶在公海发生碰撞的损害赔偿 (C) 共同海损理算 (D) 海事赔偿责任限制. Output: (A) 船舶抵押权的设定(B) 同国籍船舶在公海发生碰撞的损害赔偿
Template 1: Prompt of ChatGPT for Augmentation UTF8gbsn 我希望你担任语言专家的角色。我会给你一段与法律问答文本,请你使用正式的文风润色它。要求:\n 1. 修正语法错误、标点符号错误,去掉特殊符号,必须使语句更通顺。 2. 使逻辑更清晰、格式更规范,比如向<answer>中换行符。 3. 使更礼貌,比如向<question>中加入“请问”等礼貌用语。 4. 不要写任何解释性语句。 5. <question>应该是问题,<answer>应该是答案。 这段对话是:\n<question>:{instruction} \n<answer>:{output} \n\n 以JSON格式返回结果:
Template 2: Alpaca Training Template Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n ### Instruction:\n{instruction}\n\n ### Response: \n{output}
Template 3: Alpaca Testing Template Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n ### Instruction:\n{instruction}\n\n ### Response: \n

在本节中,我们将介绍我们的LawGPT,这是一个专为中国法律应用而设计的大型语言模型,旨在有效解决各种下游法律任务。 LawGPT解决了将现有开源通用大语言模型应用于法律任务的两大挑战:

  1. (A)

    开源通用大语言模型缺乏对有效执行法律任务至关重要的法律领域知识;

  2. (二)

    开源通用大语言模型对下游法律任务训练不足,导致法律应用表现不佳。

我们将面向法律的预训练应用于LawGPT,将法律领域知识纳入开源基础模型中。 然后,我们进行法律监督微调,进一步提升LawGPT在下游法律任务上的表现。 每个组件详细说明如下。

3.1法律导向的预培训

通用大语言模型通常是在大规模通用语料库上进行预训练的,这可能缺乏足够的法律领域知识。 因此,这可能会导致对法律任务的理解和推理能力有限。 为了解决这个限制,我们建议集成L面向平等的P重新Training(LPT)进入LawGPT,旨在增强其法律领域知识。

为了将法律领域知识纳入LawGPT,我们收集了一个大规模的法律预训练语料库𝒟LPT,由来自各个法律领域的50万份法律文档组成,包括民法、刑法、和行政法。 示例 3 展示了来自法律预训练语料库的民法法律文档。 对于每个法律文档,基础模型的分词器将文本编码为词符序列𝒙=(x0,x1,),并以自回归的方式对基础模型fΘ()进行面向法律的预训练使用以下目标:

LPT(Θ,𝒟LPT)=𝔼𝒙𝒟LPT[ilogfΘ(xi|x0,x1,,xi1)] (1)

其中x0,x1,,xi1表示上下文标记,xi表示目标词符,Θ是基础模型fΘ()的参数。 我们利用LPT对基础模型Θ的参数进行优化,得到面向法律的预训练模型ΘLPT的参数。

3.2法律监督的微调

尽管 fΘLPT() 已经接受了法律领域知识的预训练,但对于特定的下游法律任务来说,它并不是最佳选择,因为它无法按照说明生成所需的响应。 为了解决这个问题,我们提出Legal-Supervised Fine-Tuning(LFT)来进一步适应LawGPT 到各种下游法律任务。 具体来说,我们构建了一个 300K 知识驱动指令数据集 𝒟LFT,由三个子集组成:

  1. (A)

    开源数据集222https://github.com/liuhuanyong/CrimeKgAssistant 拥有20万个样本,其中包括犯罪类型预测和犯罪咨询任务,以调整模型,以便更好地理解与犯罪相关的法律任务并生成用户友好的响应;

  2. (二)

    JEC-QA数据集(Zhong等人, 2020b)拥有20K样本,其中包含法律问答任务,以调整模型以更好地适应法律下游任务;

  3. (C)

    通过ChatGPT提炼子集(a)和(b),构建了8万个样本的法律数据集(OpenAI, 2023a),增加了更多高质量的法律QA样本,从而增强了模型的泛化性。

子集(a)和(b)分别如示例33所示。 The subset (c) is reinfed using the prompt template in Template 3 to augment the samples in subsets (a) and (b), where we replace <instruction> with real questions and <output> with the corresponding answer. 我们在模板 3 中采用斯坦福羊驼模板 (Taori 等人, 2023) 将指令和输出包装在我们的数据集中。 然后,使用以下目标对预训练模型 ΘLPT 的参数在 𝒟LFT 上进行微调:

LFT(Θ,𝒟LFT)=𝔼𝒙𝒟LFT[i{output}logfΘLPT(xi|x0,x1,,xi1)] (2)

其中 Θ 表示优化参数,𝒙=(x0,x1,) 表示从数据集 𝒟LFT 提取并由模板 3 包装的标记化输入序列,以及 {output}表示输出标记的索引集。 我们优化预训练参数ΘLPT以获得LawGPTΘLFT的参数。

3.3 LawGPT的推论

当将LawGPT应用于下游任务时,我们应该使用Template 3中的Alpaca模板包装指令,然后将文本标记为𝒙=(x0,x1,,xn) 然后,我们将标记化的输入序列 𝒙 输入到微调模型 fΘLFT() 中,以自回归方式生成响应。

4实验

4.1实现细节

我们使用 8 个 NVIDIA V100 GPU,基于 Chinese-Alpaca-Plus 7B 基本模型(Cui 等人,2023b) 训练了 LawGPT,分两个阶段:面向法律的预训练- 培训和法律监督的微调。 对于面向法律的预训练,我们采用我们的 500K 法律预训练语料库 𝒟LPT 使用 LoRA 技术 (Hu 等人, 2022) 来训练基础模型。 我们将 LoRA 等级设置为 16,alpha 设置为 32,dropout 设置为 0.05。 学习率设置为 0.0003,批量大小设置为 128,训练纪元设置为 1。 对于法律监督微调,我们采用 30K 法律监督语料库 𝒟LFT 来使用 LoRA 技术通过 Alpaca 模板调整我们的预训练模型。 我们将 LoRA 等级设置为 8,alpha 设置为 16,dropout 设置为 0.05。 我们将学习率设置为 0.0003,批量大小设置为 64,训练纪元设置为 20。

4.2性能评估

表格1: LawGPT、专有模型(包括 GPT-3.5 Turbo (OpenAI,2023a) 和 GPT-4 (OpenAI,2023b) 与 7B 之间的性能比较零样本设置上的开源模型 LLaMA (Touvron 等人, 2023a) LawGPT 和开源模型中的最佳性能以粗体显示。
Models Tasks
#1 #2 #3 #4 #5 #6 #7 #8 Avg.
GPT-3.5 Turbo 29.5 31.3 35.5 78.7 76.8 27.4 61.2 17.4 44.7
GPT-4 52.5 27.5 42.0 82.6 81.9 48.6 77.6 19.6 54.0
LLaMA 1.0 7.5 7.0 41.3 54.2 0.2 14.4 7.8 16.7
LaWGPT 0.2 11.0 15.7 42.4 40.8 6.2 15.4 7.6 17.4

在本节中,我们进行实验来评估 LawGPT 在 8 个法律应用(Fei 等人,2023) 上的性能,包括基于事实的文章预测 (#1)、基于场景的物品预测(#2)、指控预测(#3)、无物品刑期预测(#4)、有物品刑期预测(#5)、案件分析(#6)、刑事赔偿计算(#7) ),并在零样本环境中进行咨询(#8)。 我们将 LawGPT 与专有模型的性能进行比较,包括 GPT-3.5 Turbo (OpenAI,2023a) 和 GPT-4 (OpenAI,2023b),以及LLaMA等7B开源模型(Touvron等人,2023a) 结果如表1所示。 结果表明,我们的 LawGPT 在主要任务上优于 LLaMA 7B 模型,并具有更好的平均性能。 尽管具有保护数据隐私的优势,但 LawGPT 与专有模型之间仍然存在显着的性能差距。 这一结果激励我们和后续研究人员探索LawGPT在未来工作中的潜力。

5结论

在本次技术报告中,我们介绍了LawGPT,这是一种专为中国法律应用而设计的中国法律知识增强型大语言模型。 我们引入了面向法律的预训练和法律监督微调,分别融入法律领域知识并增强模型在下游法律任务上的性能。 我们的实验结果表明 LawGPT 优于开源 LLaMA 7B 模型。 我们希望这份技术报告和LawGPT模型能够对未来中国法律应用的研究有所启发,为法律人工智能社区的发展做出贡献。

参考

  • Anil et al. [2023] Rohan Anil, Andrew M. Dai, Orhan Firat, Melvin Johnson, Dmitry Lepikhin, Alexandre Passos, Siamak Shakeri, Emanuel Taropa, Paige Bailey, Zhifeng Chen, Eric Chu, Jonathan H. Clark, Laurent El Shafey, Yanping Huang, Kathy Meier-Hellstern, Gaurav Mishra, Erica Moreira, Mark Omernick, Kevin Robinson, Sebastian Ruder, Yi Tay, Kefan Xiao, Yuanzhong Xu, Yujing Zhang, Gustavo Hernández Ábrego, Junwhan Ahn, Jacob Austin, Paul Barham, Jan A. Botha, James Bradbury, Siddhartha Brahma, Kevin Brooks, Michele Catasta, Yong Cheng, Colin Cherry, Christopher A. Choquette-Choo, Aakanksha Chowdhery, Clément Crepy, Shachi Dave, Mostafa Dehghani, Sunipa Dev, Jacob Devlin, Mark Díaz, Nan Du, Ethan Dyer, Vladimir Feinberg, Fangxiaoyu Feng, Vlad Fienber, Markus Freitag, Xavier Garcia, Sebastian Gehrmann, Lucas Gonzalez, and et al. Palm 2 technical report. CoRR, abs/2305.10403, 2023.
  • Chalkidis et al. [2019] Ilias Chalkidis, Ion Androutsopoulos, and Nikolaos Aletras. Neural legal judgment prediction in english. In Proceedings of the 57th Conference of the Association for Computational Linguistics, pages 4317–4323, 2019.
  • Chalkidis et al. [2020] Ilias Chalkidis, Manos Fergadiotis, Prodromos Malakasiotis, Nikolaos Aletras, and Ion Androutsopoulos. LEGAL-BERT: "preparing the muppets for court’". In Findings of the Association for Computational Linguistics, pages 2898–2904, 2020.
  • Chen et al. [2013] Yen-Liang Chen, Yi-Hung Liu, and Wu-Liang Ho. A text mining approach to assist the general public in the retrieval of legal documents. Journal of the American Society for Information Science and Technology, 64(2):280–290, 2013.
  • Chowdhery et al. [2023] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. Palm: Scaling language modeling with pathways. Journal of Machine Learning Research, 24:240:1–240:113, 2023.
  • Cui et al. [2023a] Jiaxi Cui, Zongjian Li, Yang Yan, Bohua Chen, and Li Yuan. Chatlaw: Open-source legal large language model with integrated external knowledge bases. CoRR, abs/2306.16092, 2023a.
  • Cui et al. [2021] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, and Ziqing Yang. Pre-training with whole word masking for chinese BERT. IEEE ACM Trans. Audio Speech Lang. Process., 29:3504–3514, 2021.
  • Cui et al. [2023b] Yiming Cui, Ziqing Yang, and Xin Yao. Efficient and effective text encoding for chinese llama and alpaca. arXiv preprint arXiv:2304.08177, 2023b.
  • Dai et al. [2023] Yongfu Dai, Duanyu Feng, Jimin Huang, Haochen Jia, Qianqian Xie, Yifang Zhang, Weiguang Han, Wei Tian, and Hao Wang. Laiw: A chinese legal large language models benchmark. CoRR, abs/2310.05620, 2023.
  • Deng et al. [2023] Wentao Deng, Jiahuan Pei, Keyi Kong, Zhe Chen, Furu Wei, Yujun Li, Zhaochun Ren, Zhumin Chen, and Pengjie Ren. Syllogistic reasoning for legal judgment analysis. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 13997–14009, 2023.
  • Dong et al. [2019] Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, and Hsiao-Wuen Hon. Unified language model pre-training for natural language understanding and generation. In Advances in Neural Information Processing Systems, pages 13042–13054, 2019.
  • Du et al. [2022] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, and Jie Tang. Glm: General language model pretraining with autoregressive blank infilling. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 320–335, 2022.
  • Duan et al. [2019] Xingyi Duan, Baoxin Wang, Ziyue Wang, Wentao Ma, Yiming Cui, Dayong Wu, Shijin Wang, Ting Liu, Tianxiang Huo, Zhen Hu, Heng Wang, and Zhiyuan Liu. CJRC: A reliable human-annotated benchmark dataset for chinese judicial reading comprehension. In Proceedings of the 18th China National Conference on Chinese Computational Linguistics, volume 11856, pages 439–451, 2019.
  • Fei et al. [2023] Zhiwei Fei, Xiaoyu Shen, Dawei Zhu, Fengzhe Zhou, Zhuo Han, Songyang Zhang, Kai Chen, Zongwen Shen, and Jidong Ge. Lawbench: Benchmarking legal knowledge of large language models. CoRR, abs/2309.16289, 2023.
  • Gan et al. [2023] Wensheng Gan, Zhenlian Qi, Jiayang Wu, and Jerry Chun-Wei Lin. Large language models in education: Vision and opportunities. In IEEE International Conference on Big Data, pages 4776–4785. IEEE, 2023.
  • He et al. [2023] Wanwei He, Jiabao Wen, Lei Zhang, Hao Cheng, Bowen Qin, Yunshui Li, Feng Jiang, Junying Chen, Benyou Wang, and Min Yang. Hanfei-1.0. https://github.com/siat-nlp/HanFei, 2023.
  • He et al. [2024] Zhitao He, Pengfei Cao, Chenhao Wang, Zhuoran Jin, Yubo Chen, Jiexin Xu, Huaijun Li, Xiaojian Jiang, Kang Liu, and Jun Zhao. Simucourt: Building judicial decision-making agents with real-world judgement documents. arXiv preprint arXiv:2403.02959, 2024.
  • Hongcheng et al. [2023] Liu Hongcheng, Liao Yusheng, Meng Yutong, and Yuhao Wang. Lawgpt: Chinese legal large language model. https://github.com/LiuHC0428/LAW_GPT, 2023.
  • Hu et al. [2022] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. In Proceedings of the 10th International Conference on Learning Representations, 2022.
  • Huang and Chang [2023] Jie Huang and Kevin Chen-Chuan Chang. Towards reasoning in large language models: A survey. In Findings of the Association for Computational Linguistics, pages 1049–1065, 2023.
  • Huang et al. [2023] Quzhe Huang, Mingxu Tao, Zhenwei An, Chen Zhang, Cong Jiang, Zhibin Chen, Zirui Wu, and Yansong Feng. Lawyer llama technical report. CoRR, abs/2305.15062, 2023. doi: 10.48550/ARXIV.2305.15062. URL https://doi.org/10.48550/arXiv.2305.15062.
  • Li et al. [2023] Haitao Li, Qingyao Ai, Jia Chen, Qian Dong, Yueyue Wu, Yiqun Liu, Chong Chen, and Qi Tian. SAILER: structure-aware pre-trained language model for legal case retrieval. In Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 1035–1044, 2023.
  • Luo et al. [2017] Bingfeng Luo, Yansong Feng, Jianbo Xu, Xiang Zhang, and Dongyan Zhao. Learning to predict charges for criminal cases with legal basis. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 2727–2736, 2017.
  • Nguyen [2023] Ha-Thanh Nguyen. A brief report on lawgpt 1.0: A virtual legal assistant based on GPT-3. CoRR, abs/2302.05729, 2023.
  • Nguyen et al. [2023] Ha Thanh Nguyen, Randy Goebel, Francesca Toni, Kostas Stathis, and Ken Satoh. Lawgiba - combining gpt, knowledge bases, and logic programming in a legal assistance system. In Proceedings of the 36th Annual Conference on Legal Knowledge and Information Systems, pages 371–374, 2023.
  • OpenAI [2023a] OpenAI. Gpt-3.5 turbo, 2023a.
  • OpenAI [2023b] OpenAI. Gpt-4, 2023b.
  • Phi et al. [2020] Manh-Kien Phi, Ha-Thanh Nguyen, Ngo Xuan Bach, Vu D. Tran, Minh Le Nguyen, and Tu Minh Phuong. Answering legal questions by learning neural attentive text representation. In Proceedings of the 28th International Conference on Computational Linguistics, pages 988–998. International Committee on Computational Linguistics, 2020.
  • Shao et al. [2020] Yunqiu Shao, Jiaxin Mao, Yiqun Liu, Weizhi Ma, Ken Satoh, Min Zhang, and Shaoping Ma. BERT-PLI: modeling paragraph-level interactions for legal case retrieval. In Proceedings of the 29th International Joint Conference on Artificial Intelligence, pages 3501–3507, 2020.
  • Taori et al. [2023] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Stanford alpaca: An instruction-following llama model. https://github.com/tatsu-lab/stanford_alpaca, 2023.
  • Team [2023] MosaicML NLP Team. Introducing mpt-7b: A new standard for open-source, commercially usable llms. www.mosaicml.com/blog/mpt-7b, 2023.
  • Thirunavukarasu et al. [2023] Arun James Thirunavukarasu, Darren Shu Jeng Ting, Kabilan Elangovan, Laura Gutierrez, Ting Fang Tan, and Daniel Shu Wei Ting. Large language models in medicine. Nature Medicine, 29:1930–1940, 2023.
  • Touvron et al. [2023a] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurélien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. Llama: Open and efficient foundation language models. CoRR, abs/2302.13971, 2023a.
  • Touvron et al. [2023b] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton-Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurélien Rodriguez, Robert Stojnic, Sergey Edunov, and Thomas Scialom. Llama 2: Open foundation and fine-tuned chat models. CoRR, abs/2307.09288, 2023b.
  • Wu et al. [2024] Yiquan Wu, Yuhang Liu, Yifei Liu, Ang Li, Siying Zhou, and Kun Kuang. Wisdom interrogatory. https://github.com/zhihaiLLM/wisdomInterrogatory, 2024.
  • Xiao et al. [2021] Chaojun Xiao, Xueyu Hu, Zhiyuan Liu, Cunchao Tu, and Maosong Sun. Lawformer: A pre-trained language model for chinese legal long documents. AI Open, 2:79–84, 2021.
  • Yang et al. [2023a] Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Ce Bian, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong, Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, Juntao Dai, Kun Fang, Lei Su, Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, and Zhiying Wu. Baichuan 2: Open large-scale language models. CoRR, abs/2309.10305, 2023a.
  • Yang et al. [2023b] Hongyang Yang, Xiao-Yang Liu, and Christina Dan Wang. Fingpt: Open-source financial large language models. CoRR, abs/2306.06031, 2023b.
  • Yang et al. [2019] Wenmian Yang, Weijia Jia, Xiaojie Zhou, and Yutao Luo. Legal judgment prediction via multi-perspective bi-feedback network. In Proceedings of the 28th International Joint Conference on Artificial Intelligence, pages 4085–4091, 2019.
  • Yu et al. [2022] Wenhao Yu, Chenguang Zhu, Zaitang Li, Zhiting Hu, Qingyun Wang, Heng Ji, and Meng Jiang. A survey of knowledge-enhanced text generation. ACM Computing Surveys, 54(11s):227:1–227:38, 2022.
  • Zhong et al. [2020a] Haoxi Zhong, Chaojun Xiao, Cunchao Tu, Tianyang Zhang, Zhiyuan Liu, and Maosong Sun. How does NLP benefit legal system: A summary of legal artificial intelligence. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 5218–5230, 2020a.
  • Zhong et al. [2020b] Haoxi Zhong, Chaojun Xiao, Cunchao Tu, Tianyang Zhang, Zhiyuan Liu, and Maosong Sun. JEC-QA: A legal-domain question answering dataset. In Proceedings of the 34th AAAI Conference on Artificial Intelligence, pages 9701–9708, 2020b.