自然语言处理(NLP)中的预测模型已经从从头开始的训练模型发展到使用标记数据微调预训练模型。这种微调的一种极端形式涉及上下文学习(ICL),其中预训练生成模型(冻结解码器参数)的输出仅通过输入字符串(称为指令或提示)的变化进行控制。 ICL 的一个重要组成部分是在提示中使用少量标记数据实例作为示例 ...

0 1 0 0 2024/03/30 arXiv:2403.06402v1 JayLiu

情境学习(ICL)是通过一些演示使大型语言模型(LLM)适应下游任务的重要范例。尽管ICL取得了巨大成功,但演示数量的限制可能会导致演示偏差,即 ...

0 0 0 0 2024/03/30 arXiv:2312.07476v2 JayLiu

法律三段论是法律专业人士分析案件时常用的一种演绎推理形式。在本文中,我们提出了法律三段论提示(LoT),这是一种用于教授用于法律判断预测的大型语言模型(LLM)的简单提示方法。 LoT只教导说,在法律三段论中,大前提是法律,小前提是事实,结论是判断 ...

0 0 0 0 2024/03/28 arXiv:2307.08321v1 JayLiu

虽然像 GPT-4 这样的大型语言模型(LLM)最近在一般领域任务中展示了惊人的零样本能力,但它们经常在中国法律等特定领域生成带有幻觉的内容,从而阻碍了它们在这些领域的应用。这通常是由于缺乏包含此类特定领域的训练数据,导致 GPT-4 无法获取领域内的知识。一个紧迫的挑战是,继续在领域内数据上培训如此规模的 LLM 是不合理的 ...

0 0 0 0 2024/03/28 arXiv:2310.03328v2 JayLiu

大型语言模型 (LLM) 在特定领域的应用程序(例如法律领域)中展现出了巨大的潜力。然而,最近关于 GPT-4 法律评估的争议引发了对其在现实世界法律任务中表现的质疑。为了系统地调查他们的法律能力,我们设计了基于 LLM 的实用基线解决方案,并在法律判决预测任务上进行了测试 ...

0 0 0 0 2024/03/28 arXiv:2310.11761v1 JayLiu

大型语言模型 (LLM) 和聊天机器人在简化法律受理流程方面显示出巨大的前景。这一进步可以大大减少法律援助组织的工作量和成本,提高可用性,同时使更广泛的受众更容易获得法律援助。然而,当前 LLM 面临的一个关键挑战是,他们倾向于根据从训练数据中学到的输出分布,过于自信地对客户的问题立即提供“最佳猜测” ...

0 0 0 0 2024/03/28 arXiv:2311.13281v1 JayLiu

大型预训练语言模型 (LLM) 可以通过文本到文本的方法快速适应各种任务,其中指令和输入以自然语言输入模型。与情境学习 (ICL) 相结合,这种范例非常灵活且强大。然而,它也给用户带来了大量的选择,其中许多选择是任意的 ...

0 0 0 0 2024/03/28 arXiv:2312.07405v1 JayLiu

最近,基于指令的技术在提高小样本学习场景的性能方面取得了重大进展。他们通过弥合预训练语言模型和针对特定下游任务的微调之间的差距来实现这一目标。尽管取得了这些进步,大型语言模型 (LLM) 在使用提示或指令的命名实体识别 (NER) 等信息提取任务中的性能仍然低于监督基线 ...

0 0 0 0 2024/03/28 arXiv:2401.13545v1 JayLiu

在本文中,我们提出了 PARAMANU-AYN,这是一种完全基于印度最高法院的案例文件、印度宪法和印度刑法典的语言模型。基于新颖的自回归 (AR) 解码器的模型是在上下文大小 8192 下从头开始预训练的。我们根据困惑度指标评估了预训练的法律模型 ...

0 0 0 0 2024/03/28 arXiv:2403.13681v1 JayLiu

我们引入了 MADLAD-400,这是一个基于 CommonCrawl 的手动审核的通用域 3T Token 单语数据集,涵盖 419 种语言。我们讨论了自我审核 MADLAD-400 所揭示的局限性,以及数据审核在数据集创建过程中的作用。然后我们训练并发布 10 ...

0 0 0 0 2024/09/13 arXiv:2309.04662v1 JayLiu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)