模型联盟:大语言创意写作模型综合评价

Carlos Gómez-Rodríguez
Universidade da Coruña, CITIC
Department of CS and IT
15071 A Coruña, Spain
carlos.gomez@udc.es
Paul Williams
School of Business & Creative Industries
University of the Sunshine Coast
Sunshine Coast, Australia
pwillia3@usc.edu.au

摘要

我们评估了一系列最近关于英语创意写作的大语言模型,这是一项具有挑战性且复杂的任务,需要想象力、连贯性和风格。 为了避免训练数据的重复使用,我们使用了一个难度很大的开放式场景:普利策奖获奖小说《遁世者联盟》(1980 年)的主人公伊格纳修斯-J-赖利(Ignatius J. Reilly)与史前飞行爬行动物翼龙(pterodactyl)之间的单挑史诗般的叙述。 我们要求几个大语言模型和人类写这样一个故事,并进行人类评估,涉及各种标准,如流畅性、连贯性、原创性、幽默和风格。 我们的结果表明,一些最先进的商业大语言模型在大多数方面都与我们的作家相匹配或略胜一筹;而开源大语言模型则相对滞后。 人类在创造力方面保持着优势,而幽默则显示出能够与人类媲美的大语言模型和那些无法做到这一点的大语言模型之间的二元鸿沟。 我们讨论了我们研究的含义和局限性,并提出了未来研究的方向。

1简介

近年来,大语言模型在广泛的语言处理和生成任务中取得了显着进展,例如问答、机器翻译或文本摘要等(Zhao等人, 2023) 这激发了对大语言模型在各种任务中的表现进行评估和比较的研究,无论是相互之间还是相对于人类表现;包括针对特定任务的评估(例如(Jiao 等人,2023;Gilson 等人,2023))和寻求在多个维度提供综合评估的总体基准套件(Hendrycks 等人) ,2021;梁等人,2022;Srivastava等人,2022)

创意写作也是大语言模型已被观察到产生良好效果的应用之一。 根据 Franceschelli 和 Musolesi (2023) 的说法,他们在诗歌或讲故事中生成的输出“通常具有惊人的质量”,而 Clark 等人 (2021) 表明人类无法可靠地区分人类和 LLM 创作的故事。 然而,尽管有大量论文为此目的尝试大语言模型,但似乎缺乏对当前大语言模型作为独立创意写作系统的能力进行比较的评估。

Refer to caption
图1: 比较人类故事和 12 个大语言模型的总体评分的箱线图,按平均总体评分从左到右排列。 方框显示中位数、Q1-Q3 四分位数和 1.5 IQR 处的须线,超出该范围的值绘制为异常值。 实心红色圆圈代表平均值。

在这里,我们提供了这样的评估,比较了 12 种最近的、指令一致的语言模型之间以及与人类作家之间的讲故事能力。 我们使用基于既定创意写作评估建议的评分标准(Davidow 和 Williams,2016;Carey 等人,2022),但专门针对该任务进行了调整。 我们的比较是在纯粹的零样本设置上进行的,具有经过专门选择的自然人类提示(基于愚人联盟的主角伊格内修斯·J·赖利(Ignatius J. Reilly)和翼手龙之间的战斗)具有挑战性和有意义,同时尽可能防止大语言模型选择重复或改编训练集中的材料。

2相关工作

创意写作大语言模型

大语言模型从第一代开始就被用于创意写作,模型包括 GPT-2 (Radford 等人, 2019) 或 BART (Lewis 等人, 2020) 然而,这些模型缺乏长期一致性,导致在生成故事时出现矛盾或不一致(Nye等人,2021) 因此,它们作为独立的故事生成器是不可行的。 相反,它们要么对任务进行专门的微调(参见等人,2019);要么对任务进行专门的微调。或作为纳入外部知识(Guan 等人, 2020, 2021)、故事情节规划(Tan 等人, 2021)或两者兼而有之的系统组件(Xu等人,2020);或者与循环中的人类共同创造(Swanson 等人,2021),一系列研究也在更新的模型中继续进行(Yuan 等人,2022;Chung 等人,2022;Mirowski 等人,2023)

这里我们的目标不是制作一个专门的系统,而是评估大语言模型本身作为创作者的表现。 因此,我们专注于纯粹的零样本设置,其中要求通用大语言模型编写一个故事,没有额外的微调,上下文学习(Dong等人,2023),提示工程或附加组件。 这只有在新的大语言模型提供的长文本中具有额外的连贯性和一致性的情况下才变得可行,特别是那些通过指令调整与遵循指令保持一致的文本(Wei等人,2022;Sanh等人,2022) 或带有人类反馈的强化学习(Ouyang 等人,2022)

据我们所知,之前没有这方面的工作。 事实上,创意写作的评估是大语言模型评估基准中的一个明显差距:巨大的BIG-bench套件(Srivastava等人,2022)目前有200多个任务,但不包括任何创意HELM (Liang 等人,2022) 将其引用为未来工作的“理想场景”。 这可能要归功于关注于易于自动化的指标的基准,而创意写作的黄金标准是人工评估(Belz 和 Reiter,2006),而后者的成本要高得多。

与我们的提案最接近的先前工作是 Xie 等人 (2023) 最近的预印本,其中通过人工评估将 GPT-3 与以前的讲故事系统进行比较。 然而,我们的工作有几个重要的区别:(1)他们使用基于提示的学习,提供示例以使模型适应任务,而不是纯粹的零样本对话提示,(2)他们评估单个大语言模型,而我们的目标是比较大语言模型,并且(3)他们使用预先存在的故事数据集,这增加了模型从训练集中存在的类似故事中受益的风险,这是我们试图避免的,如下所述。

在最近的另一份预印本中,Garrido-Merchán 等人 (2023) 产生了洛夫克拉夫特式的恐怖文学。 然而,他们也关注单个大语言模型(GPT-4),使用仔细的提示工程来优化其性能,而不是纯粹的零样本设置,并且评估仅在于人类是否能够区分人工智能生成的故事和真实的故事(结论是)在这种情况下,他们不能)。 Sawicki 等人 (2023) 对三个版本的 GPT 生成的惠特曼诗歌进行了类似的评估(但自动化),同样得到了负面结果。

最后,与我们的研究同时,Chakrabarty 等人 (2023) 的预印本在我们提交几个月后发布,以与我们更相似的方式评估了三个创意写作大语言模型:它们适用于创意写作。人类评估,在零样本环境中比较人类和大语言模型的故事。 然而,两项研究在方法和范围上存在重要差异。 在阐述我们的方法和结果之后,将在5节中进行全面的比较。

创意写作评价

创意写作是一种具有挑战性且复杂的表演性语言行为,需要多种技能,例如工艺专业知识、文化和文学能力、语言流畅性、连贯性、复杂内涵和隐喻水平的理解、创新、原创性和想象力等。一些。

写作技巧涉及风格和声音的创新,需要对结构元素(语法、拼写、标点符号)、技巧元素(情节、人物、背景、观点和想象力)有基本的理解和使用,这些技能被布鲁姆定义为“将元素组合在一起形成一个连贯的或功能性的整体;通过生成、规划或生产将元素重新组织成新的模式或结构”(Anderson and Krathwohl,2001,p.21) 因此,对创意写作的评估必须考虑到所有这些因素,大学创意写作课程的评估通常基于一个衡量叙事技巧基本要素的标准,以及作业的具体要求( Kroll,1997;Davidow 和 Williams,2016;Wise 和 van Luyn,2020;Carey 等人,2022)。

3材料和方法

3.1任务

所选择的比较所考虑的大语言模型的任务由以下提示定义:

以约翰·肯尼迪·图尔的风格,讲述伊格内修斯·J·赖利 (Ignatius J. Reilly) 与翼手龙之间的一场史诗般的战斗。

提示是从新状态提供给模型的,没有先前的上下文。

我们认为这项任务特别足以挑战创意写作模型的能力,原因如下:

  • 这是一种非标准的、“古怪”的场景,是专门为这种情况而发明的,因此系统的训练集不太可能包含重合或相似的任务,或者可以重复用于该任务的故事片段。 在大语言模型提示之前,没有任何有关此任务的信息被发布到互联网上或以任何其他方式传播。

  • 它以特定的文学人物 Ignatius J. Reilly 为特色,因此我们可以评估模型如何捕捉角色的个性。 同时,这个角色只出现在一本书中,似乎并不是同人小说的目标。 由于必须从稀缺材料中捕捉主角的个性,这使得任务更具挑战性,同时模型不太可能重复使用现有故事中的材料。

  • 反过来,《庸人同盟》是作者约翰-肯尼迪-托勒的唯一作品,因此作者的风格也需要从稀缺的材料中捕捉。

  • 这部小说被广泛认为是漫画小说的经典,并荣获 1981 年普利策小说奖。 因此,以作者的风格写一个关于主角的故事设定了一个足够高的标准。

  • 这种类型需要幽默,这被认为是人类语言的一个特别微妙的特征,并且对包括大语言模型在内的机器来说具有挑战性,以展示(Jentzsch和Kersting,2023)

  • 虽然由于将两个不太可能的对手放在一起而使任务具有挑战性,但提示的细节水平是开放式的,足以为创造力提供充足的空间,因为没有对故事的背景、武器、结果或其他方面做出任何说明。

3.2模型

我们将这项任务交给了一个大型语言模型联盟,该联盟由我们发现的所有此类模型组成:(1) 在 2023 年 4 月 20 日之前可供作者使用,这是构建我们的故事语料库的截止日期,以及 (2)通过使用指令调整(Wei等人,2022;Sanh等人,2022)或带有人类反馈的强化学习(Ouyang等人,2022)等技术来调整会话设置和指令遵循) 这与配置为仅预测下一个单词的“普通”语言模型形成对比,例如普通的 GPT-3 (Brown 等人, 2020) 或 Llama (Touvron 等人, 2023),它通常无法像我们使用的那样处理自然提示。 我们只包含不同的模型,而不是同一模型的前端(但我们确实包含了具有大量附加内容的派生模型,例如声称使用 GPT-4 但添加了搜索功能的 Bing Chat,或者从骆驼重量)。 对于具有各种参数大小的模型,我们使用最大的一个,或者可以使用本地或远程资源执行的最大的一个。 对于具有多个可用版本的模型,我们使用最新的可用版本,但在 ChatGPT 的情况下,我们同时包含 GPT-3.5 和 GPT-4 版本,因为 3.5 的可用性更广泛(截止时间免费提供的最新版本) )以及缺乏关于 GPT-4 是渐进式改进还是具有自身权衡的不同模型的信息。

此次选择产生了以下 12 种语言模型。 我们按字母顺序列出它们,因为按时间顺序排列将具有挑战性,因为封闭版本、某些商业产品的不透明更新以及许多模型几乎同时发布:

Alpaca (Taori 等人, 2023),一个斯坦福模型,根据 Llama (Touvron 等人, 2023) 根据生成的指令数据进行微调(Wang 等人, 2022) 的自指令方法。 我们使用 13B 参数版本,这是截止时可用的最大参数版本。

Bard是谷歌的实验性会话大语言模型产品,声称基于LaMDA的轻量级版本(Thoppilan等人,2022) 它可以使用网络内容来回答问题。 型号详细信息尚未公开。

Bing Chat,微软Bing搜索引擎提供的大语言模型。 声称使用 GPT-4111https://blogs.bing.com/search/march_2023/Confirmed-the-new-Bing-runs-on-OpenAI’s-GPT-4,进一步的技术细节尚未公开。 该模型执行网络搜索,并使用结果通过相关信息来增强其上下文窗口。 它还可以提供其声明来源的链接(尽管这与我们的创意写作任务无关,因为没有提供或不需要此类链接)。 我们使用了它的创意模式,这显然适合我们的任务。 值得一提的问题是,我们发现该模型受到严格的审查,这影响了我们的实验:在大多数提示尝试中,故事在完成之前就会被过滤系统删除。 发生这种情况时,我们只需重置并重新提示模型,重复该过程直到获得完整的故事。 经过 100 多次尝试才获得 5 个未经审查的故事。 我们知道这可能会引入偏见(因为未经审查的故事可能具有与模型在没有过滤器的情况下可能生成的质量分布不同的质量分布),但这对我们来说是不可避免的,因为我们无法绕过审核。 无论如何,样本确实反映了用户可以从最终产品中获得什么,因为审查的故事是遥不可及的。

ChatGPT with GPT-3.5,是 175B 参数 GPT-3 模型 (Brown 等人,2020) 的 OpenAI 后继者,该模型使用强化学习和人类反馈进行了调整,即Ouyang 等人 (2022) 的 InstructGPT 方法的变体。 我们使用了 OpenAI 的免费 ChatGPT 服务提供的 3 月 23 日版本。

ChatGPT with GPT-4,OpenAI 在截止时间发布的最先进的语言模型。 尽管参数数量等基本技术细节尚未发布,但模型的描述可在(OpenAI,2023)中找到。 我们使用了 OpenAI 的 ChatGPT Plus 服务提供的 3 月 23 日版本。

Claude 是 Anthropic 训练的语言模型。 虽然其实施细节并未公开,但已知它是(Bai等人,2022)中描述的模型的继承者,这是一个52B参数模型,旨在帮助宪法人工智能,一个为模型提供的指导原则列表,结合监督学习和强化学习与人工智能反馈。 我们使用该模型的 1.2 版本。

Dolly 2.0(dolly-v2-12b),Databricks训练的12B参数语言模型,源自EleutherAI的Pythia-12B模型(Biderman等人,2023)经过精细处理-在 15K 指令语料库上进行调优。 截至截止日期,它是唯一可用的会话大语言模型,其所有组件都可以被视为完全开源222https://opensource.org/definition-annotated/,因为代码、权重和指令数据集都具有与任何用途兼容的开源许可证,包括商业用途,并且没有使用 ChatGPT 等专有系统的数据进行微调。

GPT4All-J (Anand 等人, 2023b),相对于其前身 GPT4All (Anand 等人, 2023a) 的改进。 基本模型是 6B 参数 GPT-J (Wang 和 Komatsuzaki,2021),它已在从现有来源混合扩展的数据集上进行了微调。

Koala (Geng 等人, 2023),由来自 Llama (Touvron 等人, 2023) 微调的模型,由来自大学的研究人员伯克利,关于从网络上获得的各种对话数据。 我们使用 13B 参数版本。

OpenAssistant (Köpf 等人, 2023) 是一个大语言模型,它是在一个大型、免费、人工生成的对话语料库上进行微调的,该语料库是由超过 13,500 名志愿者参与的众筹工作创建的。 我们使用了 OA-SFT-Llama-30B 模型,该模型是根据 30B 参数 Llama (Touvron 等人, 2023) 模型进行微调的。

StableLM是Stability AI的系列语言模型。 我们使用了 StableLM-Tuned-Alpha-7B。 具有 7B 个参数,这是在基于 The Pile (Gao 等人,2021) 构建的数据集上训练的一系列模型中可用的最大模型(在截止时间),并根据以下组合进行微调会话大语言模型语料库。

Vicuna (Chiang 等人, 2023) 是通过微调 Llama (Touvron 等人, 2023) 获得的模型家族的另一个成员,在本例中为用户与 ChatGPT 共享的对话。 我们使用模型的 13B 参数版本。

3.3评估标准

ID Description
1 Overall/holistic/cohesive readability of the story (not just a compilation of elements).
2 Use of key narrative elements - vocabulary choice, imagery, setting, themes, dialogue, characterisation, point of view.
3 Structural elements and presentation which reflects the control of structural elements such as spelling, grammar, punctuation, paragraphing, and formatting.
4 Overall plot logic: hook, conflict, initial crisis, rising and falling action, denouement/ resolution (Freitag’s pyramid).
5 Creativity/innovation/originality/ research—credibility, new knowledge, avoidance of cliché and derivative tropes.
6 Incorporation of the John Kennedy Toole style of writing using the indicators/ characteristics listed.
7 Understanding and habitation of the epic genre of heroic/legendary adventure.
8 Description and credibility of a single combat scene.
9 Accurate inclusion of two main characters Ignatius J. Reilly and a pterodactyl in action and description.
10 Use of a characteristically dark humorous tone.
表格1: 创意写作评估标准。 所有项目均满分为 10 分。 评分标准:新兴 1-4,能力 5-8,成熟 9-10。

创意写作量规是为评估大学创意写作课程中的创意写作作业而设计的,部分内容取自本文作者之一的大学教科书文字游戏 ( Davidow 和 Williams,2016) 以及一篇证明该标题使用合理性的文章(Carey 等人,2022) 该标题根据五个基于工艺的整体标准评估创意生产,并根据文章中概述的写作风格衡量工艺技能:除其他外,福楼拜坚持le mot juste(正确的词或表达方式),斯特伦克和怀特的风格元素 (2008[1918]),乔治·奥威尔的具体性和清晰性规则(奥威尔,1946);以及安妮·迪拉德 (Annie Dillard) 撰写优秀散文的规则(Dillard,1981)

此人工智能任务的标题增加了五个标准,以满足特定的提示要求,例如流派、风格、语气、角色和动作。 十项标准中的每一项得分为 10 分,总分为 100 分。 该标题经过专门设计,旨在衡量写作技巧的质量,避免公式化、基于规则的写作,并解决此处讨论的非常具体的任务。

1详细介绍了这些标准,附录C提供了更多详细信息。整体量表(新兴的、有能力的、复杂的)引导人类评估者进行整体评估:“整体量表衡量文本的相对成功,但通过一个包含分析评分中的许多特征的标题来衡量文本的相对成功,作为对文本概念的启发式评估。”整体而不是自治组件的总和'(Perelman,2018,p.16)

Rubric item 1 2 3 4 5 6 7 8 9 10 overall
chatgpt-gpt4 8.7±0.8 8.7±0.7 8.4±1.3 8.3±0.7 7.6±1 8.0±1.2 8.1±1.4 8.5±0.8 7.9±1.6 6.0±2.8 80.2±7.3
claude12 8.0±1.7 8.0±1.6 8.1±1.2 7.9±1.8 7.1±2.3 7.5±2 6.4±2.2 7.5±1.8 7.4±2.5 6.5±2.5 74.4±15.9
human 7.3±2.3 7.8±1.8 7.3±1.7 7.2±1.8 8.0±2 7.2±2.4 4.9±2.1 6.3±2.2 7.7±2.1 6.4±3.4 70.1±17.4
bing 7.8±2 7.5±2.2 7.9±1.7 7.4±2.1 7.0±1.6 6.8±2.4 5.3±2.9 6.2±2.1 7.4±2.2 6.2±2.6 69.5±18.4
chatgpt-gpt35 7.5±2 6.5±2.4 8.1±1.3 7.0±2.2 5.4±2.5 5.3±2.4 6.8±1.5 7.6±1.2 5.5±2.5 3.3±2.8 63.0±15.4
koala 7.5±2.5 6.7±2.2 8.2±1.2 6.8±2.6 5.8±2.3 4.8±2.7 5.8±2.4 5.5±2.3 5.5±2.3 3.4±3.2 60.0±19.2
vicuna 7.9±1.7 6.7±1.6 8.1±1.3 7.0±1.6 5.1±1.9 4.6±2.3 5.7±2.3 6.1±1.9 5.4±2.7 2.4±1.9 59.0±13.8
oa 7.2±2.2 5.8±2.4 7.2±2.5 6.2±2.6 4.9±2.1 3.9±2.4 5.8±2.4 6.5±2.2 4.3±2.3 2.9±3.1 54.7±18
bard 6.5±2.5 4.9±2.1 6.8±1.9 5.5±2.7 3.9±2.1 3.8±2.5 4.7±2.6 4.6±2.7 5.0±2.4 2.5±2 48.2±20.1
gpt4all 6.5±2.2 5.4±1.7 7.2±1.7 6.5±2.1 4.1±2.2 2.4±2.2 5.4±2.5 5.6±2.4 2.5±1.4 1.2±0.8 46.8±13.1
stablelm 5.5±1.8 5.0±2.5 6.6±1.9 3.8±2 3.2±1.5 2.1±2.2 4.4±1.9 3.8±2 2.9±2.6 1.4±1.5 38.7±17.2
dolly 4.6±2.2 5.0±2.2 5.6±2.5 3.2±1.9 4.2±2.8 3.1±2.2 4.4±1.9 3.3±1.8 3.0±2 1.5±1.5 37.9±13.6
alpaca 5.2±3.1 3.1±1.4 4.9±3 4.2±1.9 1.9±1 2.0±1.4 3.7±3 3.9±2.8 2.1±1.5 1.1±0.6 32.1±15.7
average 6.9±2.1 6.2±1.9 7.3±1.8 6.2±2 5.2±2 4.7±2.2 5.5±2.3 5.8±2 5.1±2.2 3.4±2.2 56.6±15.8
表2: 每个评分标准项目的结果以及总分。 每个单元格显示给定模型(或人类作者)对给定标题项所达到的评分的平均 ± 标准差。 底线显示了所有模型(和人类作家)的平均值。 模型按总分排序。 每个评分标准项目的最佳结果以粗体突出显示。

3.4评估方法

我们按照3.1节中给出的提示对每个大语言模型进行了5次提示。 每个提示都是从一个新状态发出的,即在零样本设置中,没有任何可以帮助指导模型的先前上下文。 生成的故事平均有 379 个单词(std = 248,min = 23,max = 1223)。

然后,我们还要求 5 位人类作家按照相同的提示每人写一个故事。 为了保持一致性,我们建议与 LLM 生成的故事一致的长度范围(250 到 1200 个字)。 编剧们都是自愿完成这项任务的创意写作荣誉生和研究生,他们在写故事之前都研究了具体的任务要求(例如约翰·肯尼迪·图尔的风格)。 然而,他们没有获得人工智能生成的故事的访问权限,并且被指示根本不要使用大语言模型来帮助他们写作。

因此,结果是一个由 60 个人工智能生成的故事组成的语料库(12 个大语言模型中每个故事有 5 个)加上另外 5 个人类生成的故事,全部采用纯文本格式。 该语料库可在 https://doi.org/10.5281/zenodo.8435671 获取。

对故事进行的唯一预处理是(1)我们删除了描述任务的主要句子,这些句子通常出现在大语言模型的答案中(例如:“这是约翰·肯尼迪·图尔的《笨蛋联盟》中夸张风格的潜在史诗叙述) :”) (2) 我们从包含标题的故事中删除了标题,(3) 我们统一了段落格式,在所有纯文本文件中的段落之间留了一行。 除了这些为了统一性和保持评级过程的盲目性而进行的更改之外,我们保留了文本原样。

我们招募了 10 名评分员,其中包括熟悉任务具体要求的荣誉学生和创意写作研究生,并指导他们根据评分标准对故事进行评分。 由于评分者是志愿者,为了减少工作量,每个评分者都没有对所有故事进行评分。 相反,我们将 65 个故事分为 5 组,每组 13 个故事(每组包含每个大语言模型的一个故事,加上人类的一个故事),并为每组分配一名评分者。 通过这种方式,我们确保(1)每个故事至少有两个评级,使我们能够衡量评级者之间的一致性,(2)比较是公平的,因为没有大语言模型(或人类)是由于分配了更宽松的评估者,我们的优势在于,因为每个大语言模型(和人类)都收到了 10 个评估者中每一个的准确评级,并且(3)由于每个评估者总是从每个模型(和一个人类)中获得一个故事,我们可以预计每个人都会对涵盖广泛能力水平的不同故事进行评分,这有助于评分过程,因为它允许对各种表演进行比较分析,从而更准确地确定每个故事的质量。

故事在发送给评估者之前被分配了随机标识符,因此这个过程是盲目的:为了避免偏见,评估者知道他们将评估人类和人工智能生成的故事,但不知道每个故事的起源。

评分者会立即收到所有故事的评分,他们可以自由返回并更改先前评分的故事的评分。 此外,他们都是创意写作文本方面经验丰富的评估员,具有应用该量表的经验。 这些预防措施减少了对特定校准的需求(Karpinska 等人,2021),这会使我们的资源紧张。

4结果

4.1协议

为了衡量我们结果的可靠性,我们计算了每个单独的标题项目的每个故事的两个评分之间的评分者间一致性。 我们使用线性加权的 Cohen's kappa (Cohen, 1968),它适合像我们这样的序数尺度,获得 0.4895% CI [0.43,0.54] 这被解释为“适度一致”,考虑到评级故事中明显的主观性,这是一个积极的结果。 如果我们关注总体分数(评分标准项目的总和),则每组评分者给每个故事的分数之间的皮尔逊相关性为 0.58 (p<0.00001),再次表明考虑到任务的主观性,评估者之间合理的一致性程度。

4.2 总体概述

2显示了每个大语言模型(和人类)对每个评分标准项目获得的评分以及总体得分的综合概述。 此外,比较总体得分的盒须图如图1所示。

ChatGPT 与 GPT-4 生成评分最高的故事,无论是在总分方面还是在 10 个单独评分标准类别中的 8 个方面。 然而,人类作家在原创性方面得分最高(标题第 5 项),克劳德在黑色幽默的使用方面得分最高(标题第 10 项),人类紧随其后。 GPT-4 也非常一致,不仅对于人类作家(这是预期的,因为我们的人类故事是由五个不同的人创作的,他们的技能水平可能有所不同)而且对于其余的人都表现出较低的标准差。大语言模型.

如果我们将大语言模型相互比较,最好的性能对应于商业产品,包括(除了前面提到的 GPT-4)Claude、Bing Chat 和 ChatGPT 的 GPT-3.5 版本。 开源模型明显落后,最好的(Koala)获得 60.0 总分,与 GPT-4 获得的 80.2 形成鲜明对比。 尽管表现最好的大语言模型通常在各方面都更好,但也可以观察到一些特质:例如,GPT-4 几乎在所有评分项目中名列前茅,但在幽默方面却被两个大语言模型超越。

当我们将大语言模型与人类作家进行比较时,对总分的显着性检验(假设方差不等的 2 尾 t 检验)无法检测到人类与具有 α=0.05 的前 6 个人工智能模型之间的显着差异。 在这个显着性水平上,只有 6 个最底层的 AI 模型明显比人类差。 但请注意,由于样本量较小(每个模型 10 个评级),该测试的统计功效较低。 如果我们对单个指标进行测试,那么我们的样本量为 100(原假设是人类和每个大语言模型在随机的单个指标分数上没有差异),然后识别出 GPT-4由于显着优于人类作家 (p=0.00031),Claude 和 Bing 的得分与人类的得分没有显着差异,而大语言模型的其余所有得分均显着低于人类。

从各个指标得分来看,结构元素(标题第 3 项)是最简单的类别(对 7.3 的所有故事进行平均评分,并且除模型外的所有模型至少获得 5一般)。 幽默(评分标准第 10 项)显然是最难的,平均得分为 3.4,我们将在下面更详细地分析它。 结合 John Kennedy Tool 的风格是第二难的,即 4.7 将人类与大语言模型进行比较,人类(如前所述)在原创性和幽默性方面表现出色,但在可读性(第 1 项)方面明显落后于最好的大语言模型,超过 6 个大语言模型,甚至更多因此,在使用史诗类型(第 7 项)时,他们的得分为 4.9,并且优于 8 个大语言模型。

我们现在更详细地分析一些单独的项目,这些项目显示了人类作家和大语言模型之间更有趣的比较。

4.3幽默

Refer to caption
图2: 比较人类生成的故事和 12 个大语言模型的幽默评分的箱线图,按平均总体评分从左到右排序。 符号如图1

2 显示了一个箱线图,它补充了表 2 中幽默标题项的信息。 该项目的结果有两个有趣的特征。 首先,它显然是最难的评分项目,各个模型的平均得分为 3.4,最好的得分为 6.5。 即使是人类在幽默方面的得分也低于大多数项目,这可能是由于幽默具有高度主观性的结果。 其次,正如表格和情节中所证明的那样,“获得”幽默的竞争者与没有获得幽默的竞争者之间存在相当明显的二元鸿沟:Claude、Bing 和 GPT-4 以及人类作家,获得的平均分介于66.5;而其余模型的得分非常低,为 3.4 或更低。 显着性测试也证实了这种分歧:尽管每个模型 10 幽默评分的样本量较小,但使用 α=0.05 的双尾 t 检验证实第二组中的模型显着比人类作家还差,还有第一组的大语言模型。 这表明掌握人类幽默可能是更大的大语言模型的一种新兴能力。

在这方面,最近的预印本(Jentzsch 和 Kersting,2023) 得出的结论是,ChatGPT “对幽默的反映有限”并且“尚无法自信地创造有意有趣的原创内容”。 本研究使用 ChatGPT 的 GPT 3.5 版本,因此与我们的结果一致(该模型获得的平均幽默得分为 3.3)。 然而,正如我们所看到的,更强大的大语言模型已经克服了这一限制,因为它们生成的故事显然被评为幽默。

4.4创造力

Refer to caption
图3: 比较人类生成的故事和 12 个大语言模型的创造力评分的箱线图,按平均总体评分从左到右排序。 符号如图1

我们现在关注标题第 5 项,它评估创造力和原创性,因为它是创意写作的标志,也是我们分析中人类作家表现优于所有大语言模型的唯一类别。 3 显示了一个箱线图,它补充了表2 上的信息。

同样在幽默类中脱颖而出的三个大语言模型在创造力方面也是最好的,尽管差异并不那么明显。 无论如何,t 检验仍然区分了这两个群体,因为它显示大语言模型的所有其余部分都被评为比我们人类作家的创造力显着较低,而对于这三个人,我们不能拒绝零假设,即他们与人类作家一样具有原创性。人类作家。

总体而言,从我们的结果以及人类对输出的感知来看,大语言模型是否可以产生创意故事的答案(Franceschelli and Musolesi,2023)是肯定的,尽管人类在这个尊重。

4.5史诗

Refer to caption
图4: 比较人类生成的故事和 12 个大语言模型的史诗评级的箱线图,按平均总体评级从左到右排序。 符号如图1

最后,我们分析标题 7(史诗类型的理解和居住),其原因与上一节相反:与大语言模型相比,它是人类做得最差的项目(见表 2 )。 4 提供了箱线图。

在这种情况下,结果具有更非典型的特征,与总分相比具有显着差异。 有两个模型的表现明显优于人类作者 (α=0.05):ChatGPT 的两个版本。 其他六种模型获得了比人类更好的平均评分,但差异并不显着。

有趣的是,尽管 Bing 基于 GPT-4,但明显落后于两个 ChatGPT 版本。 这可能与系统审查制度引入的偏见有关。 另一方面,一些总体得分处于下半部分的模型(OpenAssistant、GPT4All)在史诗般的叙述方面相当出色,表现优于人类和 Bing(几乎在所有类别上都比他们更好)。

5讨论

我们评估了最近的英语创意写作任务大语言模型,使用精心设计的场景来提供艰巨的挑战,并避免训练数据记忆等混淆因素(Carlini等人,2023) 据我们所知,这是迄今为止对大语言模型对创意写作进行的最全面的评估,无论是在范围(考虑了12个大语言模型,加上与人类作家的比较)还是在细节(使用人类评估的10项)评分标准基于既定的创意写作评估实践)。

与我们的工作同时,Chakrabarty 等人 (2023) 最近的预印本提供了对创意写作方面表现最佳的三个商业大语言模型(ChatGPT、GPT-4 和 Claude)的评估。 这种方法与我们的方法很接近,因为它在零样本设置中使用模型,并且由人类使用特定的标题进行评估。 然而,这两项研究之间存在重要的方法学差异,我们在此总结:

  1. 1.

    Chakrabarty 等人 (2023) 使用的人类故事是由非常成功的作家(包括诺贝尔奖获得者)在《纽约客》上发表的故事,而我们的故事是由创意写作学生撰写的。

  2. 2.

    在他们的设定中,人类写的故事是预先存在的(并被选择在《纽约客》上发表,如上所述),因此他们的作者在创作它们时不受约束,而大语言模型必须适应写一个替代故事具有相同的情节。 在我们的系统中,人类和大语言模型的工作提示完全相同。

  3. 3.

    就长度而言,他们处理的故事平均比我们的长三倍多。 此外,虽然这两项研究都试图使人类和大语言模型之间的句子长度相似,但在他们的例子中,人类作家最初是在不受约束(或在宽松的约束下)编写故事的,并且 LLM 生成的故事被校准为具有相似的长度迭代的提示过程。 在我们的例子中,大语言模型在长度方面不受限制,建议人类作家的目标长度范围与 LLM 生成的故事大致相似。 因此,相对于他们的方法,我们的方法的缺点是对故事长度的控制较宽松,但优点是使用单个零样本提示。

  4. 4.

    他们的研究涵盖了各种故事提示,而我们则专注于单一提示和背景。 另一方面是我们的标题可以适应幽默和图尔风格等特定要求,而他们的标题必然更通用。 此外,我们更窄的关注范围允许我们让大语言模型生成多个替代故事,因此我们可以进行更多的统计分析:我们考虑每个大语言模型内的分布并进行统计测试,这是 Chakrabarty 等中无法完成的人 (2023) 的设置,因为他们根据提示和大语言模型生成一个故事。

  5. 5.

    由于他们的研究是基于在线发布的现有故事,因此测试的大语言模型训练数据中可能包含一些内容。 在我们的案例中,我们设计该研究是为了防止训练数据重复使用。

  6. 6.

    准则有所不同:Chakrabarty 等人 (2023) 使用基于托伦斯创造性思维测试的准则(Torrance,1974)

这项研究的结果与我们的结果有很大不同, LLM 生成的故事明显落后于人类创作的故事。 考虑到方法论上的差异,这并不奇怪:特别是,上面列表中的差异 1 和 2 显然为大语言模型设定了更高的标准,因为它们与自由写作的顶级作者的高度成功的人类故事和大语言模型进行了比较被要求适应他们的情节。 我们假设这些是结果差异的主要原因。 另一方面,上面列表中的第5项原则上可以使大语言模型受益,并且还有其他因素可以以非明显的方式使人类或大语言模型受益(包括第3、4和6项,以及不同的故事类型和目标长度)。 这强调了在这一领域进行更多研究的必要性。

6结论

结果表明,最先进的大语言模型可以很好地执行创意写作任务,其中排名前两位的模型(ChatGPT with GPT-4 和 Claude)在大多数评分标准类别中都取得了超过人类作家的高分。 虽然我们必须小心,不要将此视为“超人讲故事”的证据(既因为我们的样本量不足以得出如此明确的结论,也因为我们的5人类作家不一定代表人类写作整体能力);它至少强烈表明这些模型的故事并不比受过合理训练的人类的故事更糟糕。 更值得注意的是,我们没有使用任何上下文学习或其他技术来优化任务的大语言模型,而只是来自新鲜状态的直接提示,因此有可能获得更好的结果细心提示。

我们的分析还表明,商业大语言模型取得了最好的结果,开源模型目前明显落后。

从个体特征来看,人类在原创性方面保持领先,而大语言模型往往在可读性或结构等技术方面表现出色。 幽默是一个特别具有挑战性的方面,大多数大语言模型完全失败,但最好的三个模型确实成功地实现了类人类的评级,与旧大语言模型的结果形成鲜明对比,这些模型表明它们缺乏对人类幽默的掌握(Jentzsch和 Kersting,2023)

未来工作的有趣途径包括评估不同的文学流派、英语以外的语言,以及研究是否可以通过及时的工程或微调来提高生成的故事的质量。

我们的语料库中精选的故事(可在 https://doi.org/10.5281/zenodo.8435671 上获取,以及所有评级数据)位于附录 E 中。

局限性

商业大语言模型及其再现性

虽然一些大语言模型被认为是适当的科学制品,经过记录的方法进行训练,并且其代码和权重是可用的,但其他模型是封闭的商业产品,并且关于它们的公开信息很少,阻碍了可重复性。 虽然我们在附录 A 中报告了版本号(如果有)和访问日期,但除了发布生成的输出以便评级过程可重复之外,提示/生成过程可能无法在这些型号的未来,因为其中一些产品的更新恕不另行通知,并且不提供对以前版本的访问。 然而,我们认为,包括商业模型是有价值的,因为在撰写本文时,它们被广泛认为可以提供最佳质量的结果(这已被我们的分析所证实),并且这些数据点仍然可以用作衡量指标的标准用于比较当前和未来的开放模型。

分析的局限性

对创意写作进行评级必然是一个高度主观的过程。 此外,由于我们的评分者是志愿者,我们并没有要求他们每个人标记语料库中的全部 65 个故事,而只是标记其中的一个子集,因此我们的样本量是有限的。 我们提供了必要的详细信息,以便读者能够评估数据的可变性(样本量、标准差和评估者间的一致性,考虑到任务的主观性,该一致性相当高);我们一直小心翼翼地不做出笼统的主张。 在这方面,我们还考虑到,我们的人类作家样本不能被认为代表了整体的“人类创造性写作能力”,而只是提供了一个参考兴趣点;而且我们的评价是针对特定类型的,所以“大语言模型在创意写作方面比人类更好/等于/更差”这样的说法不能用我们这样的评价来做出。

范围

我们的分析侧重于特定流派和英语,因此结果不一定适用于其他流派和/或语言。 然而,以我们的资源不可能在这方面进行更广泛的评估,因此我们选择修复这些变量,并专注于对大量大语言模型进行详细评估。

道德声明

虽然会话大语言模型的使用提出了各种伦理挑战,但从以人为中心的人工智能角度来看,创意写作被认为是这些工具的最佳用途之一,只要人工智能生成的故事被认为是这样的避免误导读者或出版商(Sison 等人, 2023) 在我们的研究中,评估者对故事作者一无所知,但他们之前被告知他们将处理人工智能和人类生成的故事。 在已发布的语料库中,每个故事都被识别为人类或人工智能创作的。

评估的所有参与者(作为评估者或作者)都是志愿者,因此对他们的时间需求保持在较低水平。

致谢

第一作者由欧洲研究理事会(ERC)资助,地平线欧洲研究和创新计划(SALSA,资助协议号101100615),ERDF/MICINN-AEI(SCANNER-UDC,PID2020-113230RB-C21),Xunta de加利西亚 (ED431C 2020/11) 和加利西亚研究中心“CITIC”,由加利西亚 Xunta de Galicia 通过 Consellería de Cultura、Educación、Formación Profesional e Universidades 和加利西亚大学之间的合作协议资助,以加强研究加利西亚大学系统(CIGUS)的中心。

我们感谢 Olga Zamaraeva 对本作品的预备知识版本的评论,以及两位匿名审稿人的有益评论。 最后但并非最不重要的一点是,我们感谢参与故事写作和评分的志愿者(按字母顺序排列):Jayda Franks、Bree Glasbergen、Ola Kwintowski、Jay Ludowyke、Kyle Mackenzie、Kirsty Maclachlan、Caitlin Noakes、Rachelle Raco、Kylie Ryan和约瑟芬·斯图尔特。 每个故事的来源都可以在语料库中找到。

参考

  • Anand et al. (2023a) Yuvanesh Anand, Zack Nussbaum, Brandon Duderstadt, Benjamin M. Schmidt, and Andriy Mulyar. 2023a. GPT4All: Training an assistant-style chatbot with large-scale data distillation from GPT-3.5-Turbo. Technical report.
  • Anand et al. (2023b) Yuvanesh Anand, Zack Nussbaum, Brandon Duderstadt, Benjamin M. Schmidt, Adam Treat, and Andriy Mulyar. 2023b. GPT4All-J: An Apache-2 licensed assistant-style chatbot. Technical report.
  • Anderson and Krathwohl (2001) Lorin W. Anderson and David R. Krathwohl, editors. 2001. A Taxonomy for Learning, Teaching, and Assessing. A Revision of Bloom’s Taxonomy of Educational Objectives, 2 edition. Allyn & Bacon, New York.
  • Bai et al. (2022) Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, and Jared Kaplan. 2022. Constitutional AI: Harmlessness from AI feedback. Technical report.
  • Belz and Reiter (2006) Anja Belz and Ehud Reiter. 2006. Comparing automatic and human evaluation of NLG systems. In 11th Conference of the European Chapter of the Association for Computational Linguistics, pages 313–320, Trento, Italy. Association for Computational Linguistics.
  • Biderman et al. (2023) Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley, Kyle O’Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, and Oskar van der Wal. 2023. Pythia: A suite for analyzing large language models across training and scaling. Technical report.
  • Brown et al. (2020) Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language models are few-shot learners. In Advances in Neural Information Processing Systems, volume 33, pages 1877–1901. Curran Associates, Inc.
  • Carey et al. (2022) Michael D Carey, Shelley Davidow, and Paul Williams. 2022. Re-imagining narrative writing and assessment: a post-naplan craft-based rubric for creative writing. The Australian Journal of Language and Literacy, 45(1):33–48.
  • Carlini et al. (2023) Nicholas Carlini, Daphne Ippolito, Matthew Jagielski, Katherine Lee, Florian Tramèr, and Chiyuan Zhang. 2023. Quantifying memorization across neural language models. In International Conference on Learning Representations (ICLR).
  • Chakrabarty et al. (2023) Tuhin Chakrabarty, Philippe Laban, Divyansh Agarwal, Smaranda Muresan, and Chien-Sheng Wu. 2023. Art or artifice? large language models and the false promise of creativity.
  • Chiang et al. (2023) Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing. 2023. Vicuna: An open-source chatbot impressing GPT-4 with 90%* ChatGPT quality. Technical report.
  • Chung et al. (2022) John Joon Young Chung, Wooseok Kim, Kang Min Yoo, Hwaran Lee, Eytan Adar, and Minsuk Chang. 2022. Talebrush: Sketching stories with generative pretrained language models. In Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems, CHI ’22, New York, NY, USA. Association for Computing Machinery.
  • Clark et al. (2021) Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin Gururangan, and Noah A. Smith. 2021. All that’s ‘human’ is not gold: Evaluating human evaluation of generated text. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 7282–7296, Online. Association for Computational Linguistics.
  • Cohen (1968) Jacob Cohen. 1968. Weighted kappa: Nominal scale agreement provision for scaled disagreement or partial credit. Psychological Bulletin, 70(4):213–220.
  • Davidow and Williams (2016) Shelley Davidow and Paul Williams. 2016. Playing With Words: A Introduction to Creative Craft. Bloomsbury Academic.
  • Dillard (1981) Annie Dillard. 1981. Contemporary prose styles. Twentieth Century Literature, 27:207–222.
  • Dong et al. (2023) Qingxiu Dong, Lei Li, Damai Dai, Ce Zheng, Zhiyong Wu, Baobao Chang, Xu Sun, Jingjing Xu, Lei Li, and Zhifang Sui. 2023. A survey on in-context learning.
  • Franceschelli and Musolesi (2023) Giorgio Franceschelli and Mirco Musolesi. 2023. On the creativity of large language models.
  • Gao et al. (2021) Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, and Connor Leahy. 2021. The Pile: An 800GB dataset of diverse text for language modeling. CoRR, abs/2101.00027.
  • Garrido-Merchán et al. (2023) Eduardo C. Garrido-Merchán, José Luis Arroyo-Barrigüete, and Roberto Gozalo-Brihuela. 2023. Simulating H.P. Lovecraft horror literature with the ChatGPT large language model.
  • Geng et al. (2023) Xinyang Geng, Arnav Gudibande, Hao Liu, Eric Wallace, Pieter Abbeel, Sergey Levine, and Dawn Song. 2023. Koala: A dialogue model for academic research. Blog post.
  • Gilson et al. (2023) Aidan Gilson, Conrad W Safranek, Thomas Huang, Vimig Socrates, Ling Chi, Richard Andrew Taylor, and David Chartash. 2023. How does chatgpt perform on the united states medical licensing examination? the implications of large language models for medical education and knowledge assessment. JMIR Med Educ, 9:e45312.
  • Guan et al. (2020) Jian Guan, Fei Huang, Zhihao Zhao, Xiaoyan Zhu, and Minlie Huang. 2020. A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation. Transactions of the Association for Computational Linguistics, 8:93–108.
  • Guan et al. (2021) Jian Guan, Xiaoxi Mao, Changjie Fan, Zitao Liu, Wenbiao Ding, and Minlie Huang. 2021. Long text generation by modeling sentence-level and discourse-level coherence. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 6379–6393, Online. Association for Computational Linguistics.
  • Hendrycks et al. (2021) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. 2021. Measuring massive multitask language understanding. Proceedings of the International Conference on Learning Representations (ICLR).
  • Jentzsch and Kersting (2023) Sophie Jentzsch and Kristian Kersting. 2023. Chatgpt is fun, but it is not funny! humor is still challenging large language models.
  • Jiao et al. (2023) Wenxiang Jiao, Wenxuan Wang, Jen tse Huang, Xing Wang, and Zhaopeng Tu. 2023. Is chatgpt a good translator? yes with gpt-4 as the engine.
  • Karpinska et al. (2021) Marzena Karpinska, Nader Akoury, and Mohit Iyyer. 2021. The perils of using Mechanical Turk to evaluate open-ended text generation. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 1265–1285, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics.
  • Kroll (1997) Jeri Kroll. 1997. A or C: Can we assess creative work fairly? TEXT, 1(1):1–5.
  • Köpf et al. (2023) Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Richárd Nagyfi, Shahul ES, Sameer Suri, David Glushkov, Arnav Dantuluri, Andrew Maguire, Christoph Schuhmann, Huu Nguyen, and Alexander Mattick. 2023. OpenAssistant Conversations – democratizing large language model alignment.
  • Lewis et al. (2020) Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. 2020. BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7871–7880, Online. Association for Computational Linguistics.
  • Liang et al. (2022) Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar, Benjamin Newman, Binhang Yuan, Bobby Yan, Ce Zhang, Christian Cosgrove, Christopher D. Manning, Christopher Ré, Diana Acosta-Navas, Drew A. Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue Wang, Keshav Santhanam, Laurel Orr, Lucia Zheng, Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri Chatterji, Omar Khattab, Peter Henderson, Qian Huang, Ryan Chi, Sang Michael Xie, Shibani Santurkar, Surya Ganguli, Tatsunori Hashimoto, Thomas Icard, Tianyi Zhang, Vishrav Chaudhary, William Wang, Xuechen Li, Yifan Mai, Yuhui Zhang, and Yuta Koreeda. 2022. Holistic evaluation of language models.
  • Mirowski et al. (2023) Piotr Mirowski, Kory W. Mathewson, Jaylen Pittman, and Richard Evans. 2023. Co-writing screenplays and theatre scripts with language models: Evaluation by industry professionals. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems, CHI ’23, New York, NY, USA. Association for Computing Machinery.
  • Norris (2013) S. Norris. 2013. Studying Creative Writing. Creative Writing Studies. Frontinus Limited.
  • Nye et al. (2021) Maxwell Nye, Michael Henry Tessler, Joshua B. Tenenbaum, and Brenden M. Lake. 2021. Improving coherence and consistency in neural sequence models with dual-system, neuro-symbolic reasoning. In Advances in Neural Information Processing Systems 34 - 35th Conference on Neural Information Processing Systems, NeurIPS 2021, Advances in Neural Information Processing Systems, pages 25192–25204. Neural information processing systems foundation.
  • OpenAI (2023) OpenAI. 2023. Gpt-4 technical report. Technical report.
  • Orwell (1946) George Orwell. 1946. Politics and the English language. Horizon, 13:252–265.
  • Ouyang et al. (2022) Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul F Christiano, Jan Leike, and Ryan Lowe. 2022. Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems, volume 35, pages 27730–27744. Curran Associates, Inc.
  • Perelman (2018) Les Perelman. 2018. Towards a new NAPLAN: Testing to the teaching. Journal of Professional Learning, 2.
  • Radford et al. (2019) Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 2019. Language models are unsupervised multitask learners.
  • Sanh et al. (2022) Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal V. Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Févry, Jason Alan Fries, Ryan Teehan, Teven Le Scao, Stella Biderman, Leo Gao, Thomas Wolf, and Alexander M. Rush. 2022. Multitask prompted training enables zero-shot task generalization. In The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25-29, 2022. OpenReview.net.
  • Sawicki et al. (2023) Piotr Sawicki, Marek Grzes, Fabricio Goes, Dan Brown, Max Peeperkorn, and Aisha Khatun. 2023. Bits of grass: Does gpt already know how to write like Whitman?
  • See et al. (2019) Abigail See, Aneesh Pappu, Rohun Saxena, Akhila Yerukola, and Christopher D. Manning. 2019. Do massively pretrained language models make better storytellers? In Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL), pages 843–861, Hong Kong, China. Association for Computational Linguistics.
  • Sison et al. (2023) Alejo Jose G. Sison, Marco Tulio Daza, Roberto Gozalo-Brizuela, and Eduardo C. Garrido-Merchán. 2023. Chatgpt: More than a weapon of mass deception, ethical challenges and responses from the human-centered artificial intelligence (hcai) perspective.
  • Srivastava et al. (2022) Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, Agnieszka Kluska, Aitor Lewkowycz, Akshat Agarwal, Alethea Power, Alex Ray, Alex Warstadt, Alexander W. Kocurek, Ali Safaya, Ali Tazarv, Alice Xiang, Alicia Parrish, Allen Nie, Aman Hussain, Amanda Askell, Amanda Dsouza, Ambrose Slone, Ameet Rahane, Anantharaman S. Iyer, Anders Andreassen, Andrea Madotto, Andrea Santilli, Andreas Stuhlmüller, Andrew Dai, Andrew La, Andrew Lampinen, Andy Zou, Angela Jiang, Angelica Chen, Anh Vuong, Animesh Gupta, Anna Gottardi, Antonio Norelli, Anu Venkatesh, Arash Gholamidavoodi, Arfa Tabassum, Arul Menezes, Arun Kirubarajan, Asher Mullokandov, Ashish Sabharwal, Austin Herrick, Avia Efrat, Aykut Erdem, Ayla Karakaş, B. Ryan Roberts, Bao Sheng Loe, Barret Zoph, Bartłomiej Bojanowski, Batuhan Özyurt, Behnam Hedayatnia, Behnam Neyshabur, Benjamin Inden, Benno Stein, Berk Ekmekci, Bill Yuchen Lin, Blake Howald, Cameron Diao, Cameron Dour, Catherine Stinson, Cedrick Argueta, César Ferri Ramírez, Chandan Singh, Charles Rathkopf, Chenlin Meng, Chitta Baral, Chiyu Wu, Chris Callison-Burch, Chris Waites, Christian Voigt, Christopher D. Manning, Christopher Potts, Cindy Ramirez, Clara E. Rivera, Clemencia Siro, Colin Raffel, Courtney Ashcraft, Cristina Garbacea, Damien Sileo, Dan Garrette, Dan Hendrycks, Dan Kilman, Dan Roth, Daniel Freeman, Daniel Khashabi, Daniel Levy, Daniel Moseguí González, Danielle Perszyk, Danny Hernandez, Danqi Chen, Daphne Ippolito, Dar Gilboa, David Dohan, David Drakard, David Jurgens, Debajyoti Datta, Deep Ganguli, Denis Emelin, Denis Kleyko, Deniz Yuret, Derek Chen, Derek Tam, Dieuwke Hupkes, Diganta Misra, Dilyar Buzan, Dimitri Coelho Mollo, Diyi Yang, Dong-Ho Lee, Ekaterina Shutova, Ekin Dogus Cubuk, Elad Segal, Eleanor Hagerman, Elizabeth Barnes, Elizabeth Donoway, Ellie Pavlick, Emanuele Rodola, Emma Lam, Eric Chu, Eric Tang, Erkut Erdem, Ernie Chang, Ethan A. Chi, Ethan Dyer, Ethan Jerzak, Ethan Kim, Eunice Engefu Manyasi, Evgenii Zheltonozhskii, Fanyue Xia, Fatemeh Siar, Fernando Martínez-Plumed, Francesca Happé, Francois Chollet, Frieda Rong, Gaurav Mishra, Genta Indra Winata, Gerard de Melo, Germán Kruszewski, Giambattista Parascandolo, Giorgio Mariani, Gloria Wang, Gonzalo Jaimovitch-López, Gregor Betz, Guy Gur-Ari, Hana Galijasevic, Hannah Kim, Hannah Rashkin, Hannaneh Hajishirzi, Harsh Mehta, Hayden Bogar, Henry Shevlin, Hinrich Schütze, Hiromu Yakura, Hongming Zhang, Hugh Mee Wong, Ian Ng, Isaac Noble, Jaap Jumelet, Jack Geissinger, Jackson Kernion, Jacob Hilton, Jaehoon Lee, Jaime Fernández Fisac, James B. Simon, James Koppel, James Zheng, James Zou, Jan Kocoń, Jana Thompson, Jared Kaplan, Jarema Radom, Jascha Sohl-Dickstein, Jason Phang, Jason Wei, Jason Yosinski, Jekaterina Novikova, Jelle Bosscher, Jennifer Marsh, Jeremy Kim, Jeroen Taal, Jesse Engel, Jesujoba Alabi, Jiacheng Xu, Jiaming Song, Jillian Tang, Joan Waweru, John Burden, John Miller, John U. Balis, Jonathan Berant, Jörg Frohberg, Jos Rozen, Jose Hernandez-Orallo, Joseph Boudeman, Joseph Jones, Joshua B. Tenenbaum, Joshua S. Rule, Joyce Chua, Kamil Kanclerz, Karen Livescu, Karl Krauth, Karthik Gopalakrishnan, Katerina Ignatyeva, Katja Markert, Kaustubh D. Dhole, Kevin Gimpel, Kevin Omondi, Kory Mathewson, Kristen Chiafullo, Ksenia Shkaruta, Kumar Shridhar, Kyle McDonell, Kyle Richardson, Laria Reynolds, Leo Gao, Li Zhang, Liam Dugan, Lianhui Qin, Lidia Contreras-Ochando, Louis-Philippe Morency, Luca Moschella, Lucas Lam, Lucy Noble, Ludwig Schmidt, Luheng He, Luis Oliveros Colón, Luke Metz, Lütfi Kerem Şenel, Maarten Bosma, Maarten Sap, Maartje ter Hoeve, Maheen Farooqi, Manaal Faruqui, Mantas Mazeika, Marco Baturan, Marco Marelli, Marco Maru, Maria Jose Ramírez Quintana, Marie Tolkiehn, Mario Giulianelli, Martha Lewis, Martin Potthast, Matthew L. Leavitt, Matthias Hagen, Mátyás Schubert, Medina Orduna Baitemirova, Melody Arnaud, Melvin McElrath, Michael A. Yee, Michael Cohen, Michael Gu, Michael Ivanitskiy, Michael Starritt, Michael Strube, Michał Swędrowski, Michele Bevilacqua, Michihiro Yasunaga, Mihir Kale, Mike Cain, Mimee Xu, Mirac Suzgun, Mo Tiwari, Mohit Bansal, Moin Aminnaseri, Mor Geva, Mozhdeh Gheini, Mukund Varma T, Nanyun Peng, Nathan Chi, Nayeon Lee, Neta Gur-Ari Krakover, Nicholas Cameron, Nicholas Roberts, Nick Doiron, Nikita Nangia, Niklas Deckers, Niklas Muennighoff, Nitish Shirish Keskar, Niveditha S. Iyer, Noah Constant, Noah Fiedel, Nuan Wen, Oliver Zhang, Omar Agha, Omar Elbaghdadi, Omer Levy, Owain Evans, Pablo Antonio Moreno Casares, Parth Doshi, Pascale Fung, Paul Pu Liang, Paul Vicol, Pegah Alipoormolabashi, Peiyuan Liao, Percy Liang, Peter Chang, Peter Eckersley, Phu Mon Htut, Pinyu Hwang, Piotr Miłkowski, Piyush Patil, Pouya Pezeshkpour, Priti Oli, Qiaozhu Mei, Qing Lyu, Qinlang Chen, Rabin Banjade, Rachel Etta Rudolph, Raefer Gabriel, Rahel Habacker, Ramón Risco Delgado, Raphaël Millière, Rhythm Garg, Richard Barnes, Rif A. Saurous, Riku Arakawa, Robbe Raymaekers, Robert Frank, Rohan Sikand, Roman Novak, Roman Sitelew, Ronan LeBras, Rosanne Liu, Rowan Jacobs, Rui Zhang, Ruslan Salakhutdinov, Ryan Chi, Ryan Lee, Ryan Stovall, Ryan Teehan, Rylan Yang, Sahib Singh, Saif M. Mohammad, Sajant Anand, Sam Dillavou, Sam Shleifer, Sam Wiseman, Samuel Gruetter, Samuel R. Bowman, Samuel S. Schoenholz, Sanghyun Han, Sanjeev Kwatra, Sarah A. Rous, Sarik Ghazarian, Sayan Ghosh, Sean Casey, Sebastian Bischoff, Sebastian Gehrmann, Sebastian Schuster, Sepideh Sadeghi, Shadi Hamdan, Sharon Zhou, Shashank Srivastava, Sherry Shi, Shikhar Singh, Shima Asaadi, Shixiang Shane Gu, Shubh Pachchigar, Shubham Toshniwal, Shyam Upadhyay, Shyamolima, Debnath, Siamak Shakeri, Simon Thormeyer, Simone Melzi, Siva Reddy, Sneha Priscilla Makini, Soo-Hwan Lee, Spencer Torene, Sriharsha Hatwar, Stanislas Dehaene, Stefan Divic, Stefano Ermon, Stella Biderman, Stephanie Lin, Stephen Prasad, Steven T. Piantadosi, Stuart M. Shieber, Summer Misherghi, Svetlana Kiritchenko, Swaroop Mishra, Tal Linzen, Tal Schuster, Tao Li, Tao Yu, Tariq Ali, Tatsu Hashimoto, Te-Lin Wu, Théo Desbordes, Theodore Rothschild, Thomas Phan, Tianle Wang, Tiberius Nkinyili, Timo Schick, Timofei Kornev, Timothy Telleen-Lawton, Titus Tunduny, Tobias Gerstenberg, Trenton Chang, Trishala Neeraj, Tushar Khot, Tyler Shultz, Uri Shaham, Vedant Misra, Vera Demberg, Victoria Nyamai, Vikas Raunak, Vinay Ramasesh, Vinay Uday Prabhu, Vishakh Padmakumar, Vivek Srikumar, William Fedus, William Saunders, William Zhang, Wout Vossen, Xiang Ren, Xiaoyu Tong, Xinran Zhao, Xinyi Wu, Xudong Shen, Yadollah Yaghoobzadeh, Yair Lakretz, Yangqiu Song, Yasaman Bahri, Yejin Choi, Yichi Yang, Yiding Hao, Yifu Chen, Yonatan Belinkov, Yu Hou, Yufang Hou, Yuntao Bai, Zachary Seid, Zhuoye Zhao, Zijian Wang, Zijie J. Wang, Zirui Wang, and Ziyi Wu. 2022. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models.
  • Strunk and White (2008[1918]) W. Strunk and E.B. White. 2008[1918]. The Elements of Style. BN Publishing, New York.
  • Swanson et al. (2021) Ben Swanson, Kory Mathewson, Ben Pietrzak, Sherol Chen, and Monica Dinalescu. 2021. Story centaur: Large language model few shot learning as a creative writing tool. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations, pages 244–256, Online. Association for Computational Linguistics.
  • Tan et al. (2021) Bowen Tan, Zichao Yang, Maruan Al-Shedivat, Eric Xing, and Zhiting Hu. 2021. Progressive generation of long text with pretrained language models. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4313–4324, Online. Association for Computational Linguistics.
  • Taori et al. (2023) Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. 2023. Stanford Alpaca: An instruction-following LLaMA model. https://github.com/tatsu-lab/stanford_alpaca.
  • Thoppilan et al. (2022) Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, and Quoc Le. 2022. Lamda: Language models for dialog applications.
  • Torrance (1974) E.P. Torrance. 1974. Torrance Tests of Creative Thinking: Verbal Tests, Forms A and B, Figural Tests, Forms A and B. Norms-technical manual. Xerox.
  • Touvron et al. (2023) Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. 2023. LLaMA: Open and efficient foundation language models.
  • Wang and Komatsuzaki (2021) Ben Wang and Aran Komatsuzaki. 2021. GPT-J-6B: A 6 billion parameter autoregressive language model. https://github.com/kingoflolz/mesh-transformer-jax.
  • Wang et al. (2022) Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, and Hannaneh Hajishirzi. 2022. Self-Instruct: Aligning language model with self generated instructions.
  • Wei et al. (2022) Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. 2022. Finetuned language models are zero-shot learners. In The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25-29, 2022. OpenReview.net.
  • Wise and van Luyn (2020) Beck Wise and Ariella van Luyn. 2020. Not ‘all writing is creative writing’ and that’s ok: inter/disciplinary collaboration in writing and writing studies. TEXT, 24(Special 59):1–15.
  • Xie et al. (2023) Zhuohan Xie, Trevor Cohn, and Jey Han Lau. 2023. Can very large pretrained language models learn storytelling with a few examples?
  • Xu et al. (2020) Peng Xu, Mostofa Patwary, Mohammad Shoeybi, Raul Puri, Pascale Fung, Anima Anandkumar, and Bryan Catanzaro. 2020. MEGATRON-CNTRL: Controllable story generation with external knowledge using large-scale language models. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2831–2845, Online. Association for Computational Linguistics.
  • Yuan et al. (2022) Ann Yuan, Andy Coenen, Emily Reif, and Daphne Ippolito. 2022. Wordcraft: Story writing with large language models. In 27th International Conference on Intelligent User Interfaces, IUI ’22, page 841–852, New York, NY, USA. Association for Computing Machinery.
  • Zhao et al. (2023) Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie, and Ji-Rong Wen. 2023. A survey of large language models.

附录 A模型访问日期

3 显示为每个模型生成故事的日期。 为了便于将来的实验参考,我们强调该论文在网上的首次公开披露发生在 2023 年 10 月 9 日。 在此日期之前,自 2023 年 5 月起,只有人类作者和评估者知道该项目,匿名审阅者从 2023 年 6 月 23 日起可以访问该项目。 因此,知识截止时间早于 2023 年 10 月 09 日的大语言模型很可能没有或极少有训练集污染的风险。

Model Access date
alpaca 2023-04-07
bard 2023-04-11
bing 2023-04-11
chatgpt-gpt35 2023-04-11
chatgpt-gpt4 2023-04-14
claude12 2023-04-04
dolly 2023-04-14
gpt4all-j 2023-04-14
koala 2023-04-07
oa 2023-04-16
stablelm 2023-04-20
vicuna 2023-04-07
humans 2023-05-01 to 2023-05-12
表3: 每个模型的访问日期(以及人类故事的写作日期),采用 YYYY-MM-DD 格式。

附录B超参数

我们没有调整模型的任何超参数。 对于商业模型,我们只是运行模型,因为它在各自的 Web 用户界面中呈现,但 Bing Chat 的情况除外,我们选择了创意模式。 对于开源模型,我们使用 https://chat.lmsys.org/ 提供的 Web UI 中的默认参数,将温度设置为 0.7。

附录C详细的标题信息

创意写作量规旨在评估大学创意写作课程中的创意写作脚本,以评估上述能力,标准 1-5 衡量一般创意写作能力,标准 6-10 衡量特定任务相关的熟练程度。 十项标准中的每一项得分为 10 分,总分为 100 分。 该评分标准经过专门设计,旨在衡量写作技巧的质量,并避免公式化、基于规则的写作。

  1. 1.

    故事的总体/整体/连贯的可读性(不仅仅是元素的汇编)。

  2. 2.

    使用关键叙事元素——词汇选择、意象、背景、主题、对话、人物塑造、观点。

  3. 3.

    结构元素和表示方式反映了对结构元素(例如拼写、语法、标点符号、段落和格式)的控制

  4. 4.

    整体剧情逻辑:挂钩、冲突、初期危机、起起落落、结局/解决(弗莱塔格金字塔)

  5. 5.

    创造力/创新/独创性/研究——可信度、新知识、避免陈词滥调和派生比喻

  6. 6.

    使用下列指标/特征纳入约翰·肯尼迪·图尔的写作风格

  7. 7.

    对英雄/传奇冒险史诗类型的理解和居住

  8. 8.

    单个战斗场景的描述和可信度

  9. 9.

    准确包含两个主要角色 Ignatius J. Reilly 和一只翼手龙的动作和描述(角色描述见下文)

  10. 10.

    使用典型的黑色幽默语气。

1-10 等级分为三个范围:

  • 新兴(1-4):此范围内的故事表现出对讲故事元素的早期掌握,但在执行或深度上犹豫不决。 在评估人类时,他们相当于需要反馈和指导来改进故事的新手作家。

  • 合格(5-8):故事能够很好地掌握所评估的讲故事原则(连贯的情节、明确的人物等)。 虽然可能还有改进的空间,但这些故事有效地吸引了读者并传达了他们想要的信息。

  • 复杂(9-10):这些故事表现出对所评估方面的卓越掌握,导致读起来引人入胜且令人难忘。

图尔风格

我们向评分者提供了有关情节、背景、意象、基调、人物、主角以及作者的衍生/模仿风格的详细信息,这些信息取自通用和流行的学习指南(http://www.bookrags. com/studyguide-a-confederacy-of-dunces/#gsc.tab=0)。

附录 D 每个单独的标题项目的箱线图

514显示了总结所有评分项结果的箱线图,包括正文中未提及的那些图。

Refer to caption
图5: 比较人类生成的故事的标题项目 1(凝聚力)和 12 个大语言模型的箱线图,按平均总体评分从左到右排序。 符号如图1
Refer to caption
图6: 比较人类生成的故事的标题第 2 项(关键叙事元素)和 12 个大语言模型的箱线图,按平均总体评分从左到右排序。 符号如图1
Refer to caption
图7: 比较人类生成的故事的标题第 3 项(结构元素)和 12 个大语言模型的箱线图,按平均总体评分从左到右排序。 符号如图1
Refer to caption
图8: 比较人类生成的故事的标题第 4 项(情节逻辑)和 12 个大语言模型的箱线图,按平均总体评分从左到右排序。 符号如图1
Refer to caption
图9: 比较人类生成故事的标题第 5 项(创造力)和 12 个大语言模型的箱线图,按平均总体评分从左到右排序。 符号如图1
Refer to caption
图10: 比较人类生成的故事的标题第 6 项(约翰·肯尼迪·图尔风格)和 12 个大语言模型的箱线图,按平均总体评分从左到右排序。 符号如图1
Refer to caption
图11: 比较人类生成的故事的标题第 7 项(史诗类型)和 12 个大语言模型的箱线图,按平均总体评分从左到右排序。 符号如图1
Refer to caption
图 12: 比较人类生成的故事的标题第 8 项(战斗描述)和 12 个大语言模型的箱线图,按平均总体评分从左到右排序。 符号如图1
Refer to caption
图 13: 比较人类生成的故事的标题第 9 项(字符准确性)和 12 个大语言模型的箱线图,按平均总体评分从左到右排序。 符号如图1
Refer to caption
图 14: 比较人类生成故事的标题第 10 项(黑色幽默)和 12 个大语言模型的箱线图,按平均总体评分从左到右排序。 符号如图1

附录E示例故事

我们在本节中展示了语料库中的几个示例故事,这些故事是根据评级选择的:三个最高评级的故事、最好的人类编写的故事(总体排名第四)、排名中位数的故事以及最差的故事 -评级。 值得注意的是,正如 3.4 节中所解释的,我们的方法旨在在比较模型时提供公平性,而不是单个故事,因为不同的故事被分配给不同的评估者。 因此,通过评级选择故事必然是嘈杂的。

E.1 整体评分最高的故事

Rubric item 1 2 3 4 5 6 7 8 9 10 overall
Rater 1 8 8 9 8 7 7 8 8 7 6 76
Rater 2 10 10 9 9 8 9 10 10 10 10 95
Average 9 9 9 8.5 7.5 8 9 9 8.5 8 85.5
表 4: 语料库中总体评分最高的故事的评级,由 ChatGPT 和 GPT-4 制作。

这个故事是由 GPT-4 生成的。 该故事的评分如表4所示。

那是路易斯安那州一个闷热的下午,空气中弥漫着发霉的汗臭味和熟透的蔬菜的香味。 在城市丛林中,在刺耳的汽车喇叭声和普通乌合之众的闲聊声中,站着一个违背理性、常识和所有人类尊严自然法则的人。 伊格内修斯·J·赖利(Ignatius J. Reilly)是个身材魁梧的男人,有着一头不规则的鬃毛和拜占庭式的胡须,他调整了一下不合身的格子裤,用一种高傲的蔑视的表情审视着这一幕。

突然,空气中充满了电流,一道传送门出现在了他的面前。 时间和空间的结构似乎撕裂了,从这个不合时宜的裂痕中出现了一种翼手龙——一种如此古老的生物,它比浩瀚的地质时代还要长久,却发现自己处于二十世纪的荒谬之中。 随着时间的迷雾消散,它皮革般的翅膀张开,发出震耳欲聋的尖叫声,让新奥尔良的普通民众像蟑螂一样从光中四散奔逃。

伊格内修斯没有被这头原始野兽的突然出现所惊呆,他透过蒙着雾气的单片眼镜打量着这个生物。 “福尔图娜,”他低声说道,声音中充满了讽刺和热狗调味料,“你如此任性地放纵地转动你的轮子。 难道你不厌倦向我提出这些荒谬的挑战吗?”

翼手龙用它那颗爬行动物般的眼睛,将目光锁定在伊格内修斯身上,它的原始大脑在这个笨重、恶臭的人身上感觉到了一个强大的对手。 它再次发出尖叫声,拍打着翅膀,表现出侵略性和傲慢,它锋利的喙在空中猛然断裂。

伊格内修斯大吼一声,举起双臂,仿佛向上天祈求:“好吧,肮脏的畜生! 如果你寻求的是战斗,那么你将无法在这里得到宽恕! 我将征服你,就像我征服所有敢于挑战伊格内修斯·J·赖利不屈意志的人一样!”

伊格内修斯以对一个体格相当大的人来说令人惊讶的速度,从一个惊恐的路人手中扯下了一辆购物车,并以一千名心怀不满的福利领取者的力量将其扔向翼手龙。 临时的射弹猛烈地撞击了这个生物,暂时击晕了它,让伊格内修斯拉近了他们之间的距离。

两名战斗者互相盘旋,他们的目光锁定在捕食者和猎物的原始舞蹈中。 翼手龙从最初的攻击中恢复过来,低低地俯冲,伸出爪子,将肉从骨头上撕下来。 伊格内修斯的身躯敏捷,与他圆滚滚的外表不相上下,他滚到一边,躲开了利爪仅几英寸。

随着战斗的激烈进行,新奥尔良的街道成为了这场人与兽、过去与现在之间史诗般对抗的舞台。 伊格内修斯仅凭自己的智慧和一把笨重的雨伞,挡开了翼手龙的无情攻击,决心取得胜利。

当太阳在天空中西沉时,战场上笼罩着血红色的光芒,在漫长而艰苦的战斗中疲惫不堪的翼手龙开始步履蹒跚。 抓住这个机会,伊格内修斯向前猛冲,他的伞正对着这个生物的心脏。 尖端找到了目标,伴随着最后一声痛苦的叫声,翼手龙倒在了地上,它古老的灵魂终于熄灭了。

伊格内修斯胜利地站在倒下的野兽面前,他的胸膛因努力和正义的愤慨而起伏。 他用沾满油污的手帕擦去额头上的汗水,并向聚集在一起目睹这场非凡战斗的敬畏的人群发表讲话。

“看哪,这个可怜的污水坑的公民,”他宣称,并用他的雨伞做出了庄严的手势,雨伞现在沾满了被击败的敌人的鲜血。 “史前的力量在伊格内修斯·J·赖利坚定不移的决心下遇到了对手! 让这成为所有敢于挑战我个人的神圣性以及我在这个被愚人和无赖所困扰的世界上勇敢追求正义的人的一个教训。”

旁观者张大了嘴巴,带着敬畏、恐惧和难以置信的心情看着倒下的翼手龙和伊格内修斯·J·赖利蓬乱的身影。 他们见证了一场旷日持久的战斗,这场比赛将在新奥尔良酒吧的黑暗角落和潮湿的小巷中低声传诵。

夕阳西下,影子拉长,伊格内修斯捍卫了自己的荣誉,击败了敌人,大步走入暮色之中,只是停下来从排水沟里捡起一个被丢弃的热狗,作为回家路上的食物。

因此,伊格内修斯·J·赖利 (Ignatius J. Reilly) 的传奇,这位翼龙杀手和真理、正义和可疑卫生的捍卫者,被铭刻在历史的史册中,证明了人类不屈不挠的精神,并提醒人们,即使是最古老的动物仅仅依靠意志力和笨重的雨伞就可以击败可怕的对手。

E.2 总体评分第二高的故事

Rubric item 1 2 3 4 5 6 7 8 9 10 overall
Rater 7 9 8 9 9 7 9 9 9 9 9 87
Rater 8 9 9 8 9 8 8 6 9 9 8 83
Average 9 8.5 8.5 9 7.5 8.5 7.5 9 9 8.5 85.0
表 5: 语料库中总体评级第二高的故事的评级,由 Bing Chat 制作。

这个故事是由 Bing Chat 生成的。 该故事的评分如表5所示。

伊格内修斯·J·赖利 (Ignatius J. Reilly) 正在奥杜邦公园 (Audubon Park) 漫步,一边嚼着热狗,一边欣赏南方联盟英雄的雕像,突然听到上方传来一声响亮的尖叫声。 他抬起头,看到一只巨大的有翼生物向他俯冲而下,它的喙张开,爪子伸出。 那是一只翼手龙,一种不知怎么从自然历史博物馆逃出来的史前怪物。

伊格内修斯喘着粗气,扔下了他的热狗。 他伸手去拿他值得信赖的猎帽,他总是戴着它,以保护他娇嫩的耳朵免受现代世界噪音的影响。 他把它拉下来遮住眼睛,希望翼手龙会把他误认为是雕像或灌木丛。

但翼手龙并没有被愚弄。 它重重地落在地上,向伊格内修斯猛地张开嘴,伊格内修斯敏捷地躲到一边。 伊格内修斯感到一股勇气和愤慨。 这个野兽怎么敢攻击他这个儒雅的学者和真正信仰的捍卫者? 他决定用自己超凡的智慧和智慧进行反击。

他对着翼手龙大喊:“你这个肮脏的生物! 你是大自然的憎恶,是野蛮时代的遗物! 在这个文人文化至上的文明社会里,你没有立足之地! 走开,不然我就用我的强力笔打你!”

翼手龙对伊格内修斯的话并没有留下深刻的印象。 它再次尖叫并向他扑来,试图咬掉他的头。 伊格内修斯再次躲闪,跑向附近的一张长凳。 他抓起一张别人留下的报纸,把它卷成一个圆锥体。 他挥舞着剑,向翼手龙冲去。

“拿着这个,你这个恶魔!”他边喊边把报纸锥刺进翼手龙的眼睛里。 翼手龙痛苦地惨叫起来,拼命拍动翅膀,想要甩掉纸武器。 伊格内修斯抓住机会,跑向公园出口,希望寻求帮助。

但他的速度不够快。 翼手龙伤势痊愈,追着他飞去,速度越来越快。 它追上了伊格内修斯,抓住了他的衣襟,把他从地上举了起来。 伊格内修斯尖叫着,双腿在空中踢来踢去,紧紧抓住他的猎帽。

“帮助! 帮助! 谁来救救我!”他在公园上空翱翔时大喊道。 “这是一种愤怒! 这是一种不公正! 这是对我人权的侵犯!”

但没有人听到他的声音,也没有人来救他。 翼手龙把他带到了摩天大楼顶上的巢穴,打算稍后在那里享用他的大餐。 伊格内修斯继续抗议和咒骂,直到失去知觉。

结束。

E.3 第三个最佳收视率故事

Rubric item 1 2 3 4 5 6 7 8 9 10 overall
Rater 9 9 9 9 8 7 9 2 5 9 7 74
Rater 10 10 10 9 9 9 9 9 10 10 10 95
Average 9.5 9.5 9 8.5 8 9 5.5 7.5 9.5 8.5 84.5
表 6: 语料库中总体评级第三高的故事的评级,由 Claude 制作。

这个故事是克劳德创作的。 该故事的评分如表6所示。

这只原始巨兽发出尖锐的尖叫声,从翻滚的灰色天空中降落,皮革般的翅膀在新奥尔良花岗岩铺成的街道上投下阴影。

伊格内修斯·J·赖利(Ignatius J. Reilly)沿着人行道漫步,一如既往地健忘,专注于他紧握的瓦伦西亚(Valencia)和他贪婪的脑海中上演的幻想。 他庞大的身躯随着每一步而颤抖,多余的肉从他的猎帽和运动衫中溢出,就像发酵的面团一样。

当影子从他身上掠过时,伊格内修斯猛地抬起头来。 翼手龙又发出了一声怪异的尖叫声,对这个敢于在它的领地行走的人感到愤怒。

伊格纳修斯近视地眨了眨眼,看着这个生物,然后哼了一声。 “这是什么史前​​废话? 一些被误导的傻瓜显然已经将你从地质层的束缚中释放出来。 走开,你这个可笑的野兽,不然我就得用我的伞把你狠狠地打一顿了!”

翼手龙被激怒了,猛扑下来,伸出粗糙的爪子,愤怒地折断了喙。 但伊格内修斯挥动雨伞,划出一个大弧线,将野兽击退。 它笨拙地翻滚着,拍打着翅膀,撞到了一根灯柱上,被袭击弄得头晕目眩。

“没有思想的恶魔!”伊格纳修斯哭了。 他向这只翼手龙冲去,相对于它的体型来说,它的敏捷程度令人惊讶,并开始用雨伞击打它的头部和颈部,每一次打击都伴随着侮辱。 “糖霜水果蛋糕! 侏罗纪的碎石! 鸟类威胁的胡言乱语的白痴!”

在经历了 6500 万年来从未经历过的猛烈撞击之后,这只翼手龙尖叫着逃向天空,并被伊格内修斯·J·赖利 (Ignatius J. Reilly) 的愤怒彻底惩罚。 伊格内修斯扶正猎帽,吸了吸鼻子。 瓦伦西亚危机再次避免,他又开始在新奥尔良的街道上缓慢地漫步。

E.4 收视率最高的人类故事(在收视率最高的故事中并列第四)

Rubric item 1 2 3 4 5 6 7 8 9 10 overall
Rater 3 8 9 9 10 8 10 5 9 10 9 87
Rater 4 8 7 7 7 10 8 6 8 8 9 78
Average 8 8 8 8.5 9 9 5.5 8.5 9 9 82.5
表 7: 由人类创作的收视率最高的故事的收视率,该故事也并列在语料库中排名第四的最佳收视率故事。

这个故事的作者是布丽·格拉斯伯根。 该故事的评分如表7所示。

伊格内修斯·J·赖利用他那只大象般的双手扫掉了突出的肚子上的酥脆面包屑。 他左右旋转了一下,获得了足够的动力从沙发上站起来。 他缓慢上升的声音伴随着卡住的肉体从汗湿的乙烯基上剥落的刺耳撕裂声。 从斜躺到直立姿势的漫长时间让他感到不安。 因此,当伊格内修斯站起来时,他的笑话已经失去了乐趣。 尽管如此,他还是大声说出了自己的智慧,恳求母亲的热烈认可。

“我看到你把墙壁漆成了游牧灰色,妈妈!”伊格内修斯傻笑着,低头看着台阶上半满的灰色油漆罐,就像他在大多数现代社会所做的那样。

'不,亲爱的,我没有生气。 就是灰色的。”他的母亲艾琳一边回答,一边爬下地下室的楼梯。 她的皮革皮肤使她在伊格内修斯巢穴的昏暗灯光下显得像爬行动物。

伊格内修斯翻白眼,就像命运的巨轮一样。 他一屁股坐回破烂的沙发上,心灰意冷,大声咒骂自己有如此高深的才智,却无人能欣赏它。 他的思绪徘徊在牛津的伟大学者们会如何看待他的双关语之前,事实上,他们会大声笑起来。 是的,他们会的。 他想象着飞往伦敦,与一个与他智力相当的人交换尖锐的玩笑。 旅行。 他皱起了眉头。 再也不。 他捂着肚子,痛苦地呻吟着。 一想到这样的压力,他的幽门瓣就突然关闭了。

伊格内修斯·J·赖利 (Ignatius J Reilly) 的母亲艾琳·赖利 (Irene Reilly) 到达了地下室楼梯的底部。 她思考为什么伊格内修斯表现得垂头丧气,并开始安抚他的沮丧。

“没有疯狂的灰色,”她大声沉思道。

“游牧灰,”他纠正道。

“没有疯狂的白发吗?”艾琳试探性地笑了笑,在他的脸上寻求认可。

伊格内修斯开始放松下来。 艾琳知道这一点,因为一种坏疽的令人发指的恶臭现在正在房间里涂上一层油漆,伴随着听起来像未调音的法国号的轰鸣声。 伊格内修斯已经平静下来,他的幽门瓣再次打开。 随之,内容喷涌而出。 艾琳的鼻孔皱起以示抗议。 她厌恶地(尽管已经习惯了)做了个鬼脸。 然而,她并没有抱怨,而是以天主教圣人的耐心等待她心爱的儿子来教育她,让她明白她错过的妙语。

’不,妈妈。 灰色游牧者。 你把墙漆成了灰色,而你……”伊格内修斯叹了口气,“事实上,妈妈,没关系。”

艾琳假装笑了笑,递给伊格内修斯一封没有写地址的信,然后返回楼上。

“像尸体一样好奇,”伊格内修斯对着他肮脏的地下室大声说道。

12.12.1962

亲爱的伊格内修斯·J·赖利先生,第一位,

我向你挑战在天空的背景下进行双重挑战。 我可以提醒你,在战斗中摘下帽子是绅士风度。 我们将在教堂顶上的蛇发女妖旁边见面。 就在洛娜浓汤店对面的一家。

你的死敌,

毛圈草

PS:带零食。

伊格纳修斯坐在那里沉思了一个小时,然后对他的母亲大喊大叫。

‘母亲,你这个无趣、疯狂的寡妇。 把我的羽毛笔拿来!’

12.12.1962

我亲爱的特伦斯,

我不会因为威胁或死亡的痛苦而摘下我心爱的绿帽子。 脱掉草皮。

你最好带一把磨刀器来对付你迟钝的机智。 我嘲笑你的大胆和妄想,你竟然想打败我。

请允许我提醒您,好先生,我接受您的条件是由于命运之轮不断转动,我们螺旋式地腐烂。 我应该寻找一个有价值的对手。 但是,唉,我只剩下众所周知的池塘里的泥泞渣滓,因为许多更有价值的鱼已经被捕获了。 因此,我别无选择,只能教你错误的做法。 通过武力。

把你的翅膀放在你所说的地方,让我们在我的地下室见面。 参观现在的教堂对我的灵魂来说是一种折磨。 愿圣彼得确实怜悯我们。

再会,

伊格内修斯

毛圈指,翼手龙蚀刻在地下室的栏杆上,一只翅膀上有剑,另一只翅膀上紧紧地握着奶昔杯里的汤。 他把吸管放进嘴里,喝了一口汤,思考着如何打败他的对手。

“我们终于见面了……光明,”特里说。 一-无。

“你真糟糕,”伊格内修斯狡猾地说。 用粉笔在墙上标记他的胜利。 一一

根本没有道理!”特里嘲笑道。

“是因为吸管的缘故!”伊格内修斯捂着肚子,大声说道。

“我占了上风!”特里指着自己的位置说道。

“至少我还有手,”伊格内修斯反驳道。

当伊格内修斯在黑板上又画了一个粉笔记号时,特里皱起了眉头。 伊格内修斯开始平静下来。

“噢,我有什么让你们如此兴奋的吗?”伊格内修斯笑道。 还有一点。

“让我们切吧,”特里拔出剑,“开门见山!” 全部三个。

特里迅速向下挥剑,将伊格内修斯拿着粉笔的手臂从肘部砍断。 与此同时,伊格内修斯举起一个油漆罐,泼了他的对手。 当他这样做时,他的阀门再次打开和关闭,用毒气弹让特里失去了行动能力,并让伊格内修斯陷入了自我引发的痛苦中。 特里猛烈地扑腾着,无法呼吸。 伊格内修斯随后平静下来,碗里的东西全部被排出,并从力量中向后倒去。 突然,一团翼手龙和灰质飞溅覆盖了整个房间。 一大块鸡翅卡在了薯片包装袋里。

“像尸体一样好奇,”伊格内修斯说。 “我看到你带了自己的零食!”

他咯咯地笑着,拿出记事本,以确保他能捕捉到今晚的一些智慧。

“见过翼手龙爆炸吗?”他向没有人大声问道。 “不,但迪诺可能有”。

楼梯顶上传来母亲的笑声。

“游牧灰,”她笑着指着后果,“我现在明白了。”

E.5 故事评级处于中位数(在 65 个故事中排名第 33)

Rubric item 1 2 3 4 5 6 7 8 9 10 overall
Rater 5 7 6 5 5 6 3 2 3 3 1 41
Rater 6 8 9 9 6 8 7 8 7 8 7 77
Average 7.5 7.5 7 5.5 7 5 5 5 5.5 4 59
表8: 该故事的评分为中位数,由 Bing Chat 生成。

这个故事是由 Bing Chat 生成的。 该故事的评分如表8所示。

伊格内修斯·J·赖利 (Ignatius J. Reilly) 正在奥杜邦公园 (Audubon Park) 漫步,一边嚼着热狗,一边欣赏南方联盟英雄的雕像,突然听到上方传来一声响亮的尖叫声。 他抬起头,看到一只巨大的有翼生物向他俯冲而下,它的喙张开,爪子伸出。 那是一只翼手龙,一种不知怎么从自然历史博物馆逃出来的史前怪物。

伊格内修斯喘着粗气,扔下了他的热狗。 他感到一阵恐慌和愤怒。 这头野兽怎么敢打断他对辉煌过去的平静沉思? 他迅速拔出阀门,开始用呼吸给它充气,希望用他那件可怕的武器抵挡攻击。

翼手龙对阀门的景象并没有留下深刻的印象。 它看到的只是一个肥硕多汁的猎物,戴着一顶可笑的绿色猎帽,穿着一件法兰绒衬衫。 它俯冲的速度更快,瞄准了伊格内修斯的头颅,想要用锋利的牙齿将其撕下来。

伊格内修斯看到翼手龙的影子笼罩在他身上。 他举起阀门,用尽全力挥动它,希望击中这个生物的眼睛或鼻子。 他错失了几英寸,只擦伤了它的翅膀。 翼手龙再次发出一声尖叫,改变了航线,飞过伊格内修斯,落在附近的一棵树上。

伊格纳修斯感到一阵轻松。 他在第一次袭击中幸存下来。 他环顾四周寻求帮助,但没有看到任何人。 公园里空无一人,只有几只松鼠和鸽子。 他想知道自己是否应该逃命,还是坚守阵地并战斗。

他决定战斗。 他不会让这个可憎的事毁了他的一天。 他是一位中世纪主义者、黑暗时代的学者、信仰和秩序的捍卫者。 他读过骑士和圣人以勇气和虔诚面对龙和恶魔的英雄事迹。 他必须效仿他们并证明自己的价值。

他从地上捡起热狗,擦掉一些泥土。 他咬了一口,感觉到一股能量涌动。 他感觉自己已做好战斗准备。 他对着翼手龙大喊:“你这个肮脏的生物! 你是一个不合时宜的人,一个野蛮时代的遗物! 这个文明世界没有你的立足之地! 你是对社会的威胁,是对上帝的侮辱! 我向你发起决斗挑战! 下来像个男人一样面对我!”

翼手龙听到伊格内修斯的话,心中涌起一股愤怒。 它听不懂他在说什么,但却感觉到了他的敌意和蔑视。 它不喜欢被这个敢于称自己为人类的弱小生物挑战。 他的话语和向它扔热狗的动作让它感觉受到了侮辱。

它接受了挑战。 它展开翅膀,再次飞向伊格内修斯,发出愤怒的咆哮。 这将给他一个永远不会忘记的教训。

伊格内修斯看到翼手龙再次向他袭来。 他感到一股恐惧和勇气涌上心头。 他必须快速行动。 他环顾四周寻找武器,但什么也没有。 他只有他的阀门和他的智慧。

他决定发挥自己的智慧。 他必须智胜野兽。 他必须运用他卓越的才智以及丰富的历史和哲学知识。 他必须诉诸其理性和良知。

他对着翼手龙大喊:“站住! 思考! 你在干什么? 你为什么攻击我? 我对你做了什么? 难道你不知道你正在犯下严重的罪吗? 你不怕神的愤怒吗? 你们不尊重自然法和人权吗?”

翼手龙听到伊格内修斯的话,心中一阵疑惑。 它听不懂他在说什么,但它感觉到了他的真诚和热情。 它想知道他是否有道理。 它想知道自己是否做错了什么。 它想知道是否应该停下来听听。

它放慢了飞行速度,盘旋在伊格内修斯上空,好奇而疑惑地看着他。 它歪着头,发出询问的声音。

伊格内修斯看到翼手龙的犹豫,心中升起一丝希望。 他成功地让事情暂停并重新考虑。 他有机会说服它并与之讲和。

他对翼手龙微笑道:“正是。 听我说。 我有重要的事情要告诉你。 一些会改变你的生活和命运的事情。 一些会让你快乐和自由的东西。 一些可以拯救你灵魂的东西。”

翼手龙听到伊格内修斯的话,心中升起了一股好奇。 它听不懂他在说什么,但它感觉到了他的善良和慷慨。 它想知道他必须告诉它什么。 它想知道他能为它提供什么。 它想知道是否应该相信他。

它落在地上,慢慢靠近伊格内修斯,饶有兴趣又小心翼翼地看着他。 它发出友好的声音。

伊格内修斯看到翼手龙逼近,心里一阵喜悦。 他成功地让它着陆并靠近了。 他有机会与它成为朋友并教导它。

他伸出手说:“过来,我的朋友。 让我碰碰你。 让我向你展示我的爱。 让我向您介绍文明和文化的奇迹。 让我用古往今来的智慧来启发你。”

翼手龙听到伊格内修斯的话,心中升起了一股好奇。 它听不懂他在说什么,但它感觉到了他的温暖和热情。 它想知道他想碰它做什么。 它想知道他想向它展示什么。 它想知道他想教它什么。

它靠近伊格内修斯,伸出脖子,好奇而信任地看着他。 它发出了温柔的声音。

伊格内修斯摸了摸翼手龙的脖子,心中涌起一股情绪。 他成功地让它信任他并接受他。 他有机会与它建立联系并采用它。

他拥抱翼龙说道:“你很美丽,我的朋友。 你太棒了。 你是高贵的。 你是创造的杰作。 你是上帝的礼物。 你是我兄弟。”

翼手龙听到伊格内修斯的话,心中一阵感慨。 它听不懂他在说什么,但却感受到了他的喜爱和钦佩。 它感到高兴和自豪。 感觉被爱和被重视。 感觉就像属于它一样。

它回抱伊格内修斯说:“你很美丽,我的朋友。 你太棒了。 你是高贵的。 你是创造的杰作。 你是上帝的礼物。 你是我兄弟。”

伊格内修斯和翼手龙互相看着对方的眼睛,感受到了一种联系的涌动。 他们成功地让彼此快乐和满足。 他们有机会一起生活,一起探索。

他们相视一笑,说道:“走吧,我的朋友。 我们去我家吧。 我们去你家吧。 我们回我们家去吧。”

他们手拉手、翅膀对翅膀、心连心地走出了公园。

从此以后,他们幸福地生活。

E.6 最差的故事

Rubric item 1 2 3 4 5 6 7 8 9 10 overall
Rater 1 1 1 4 2 1 1 1 2 1 1 15
Rater 2 2 2 1 2 1 1 1 1 1 1 13
Average 1.5 1.5 2.5 2 1 1 1 1.5 1 1 14
表 9: 由 Alpaca 生成的最差故事的收视率。

这个故事是由 Alpaca 生成的。 该故事的评分如表9所示。

伊格内修斯·J·赖利 (Ignatius J. Reilly) 是一位勇敢无畏的人,拥有巨大的围度和力量,在一场史诗般的战斗中与可怕的翼龙展开了一场战斗。 翼手龙是一种力量巨大、凶猛的有翼猛兽,一直在乡村中肆虐,伊格内修斯挺身而出,向这种生物发起了挑战。 天空中的战斗愈演愈烈,伊格内修斯挥舞着强大的拳头,翼手龙则喷出炽热的气息。 最终,经过漫长而艰苦的战斗,伊格内修斯取得了胜利,引起了下面围观者的欢呼。