想象与 AI 一起设计的未来：动态基础、建设性协商和可持续激励

Priyan Vaithilingam pvaithilingam@g.harvard.edu Harvard UniversityCambridgeMassachusettsUSA02134 , Ian Arawjo ian.arawjo@umontreal.ca Université de MontréalMontréalQuebecCanadaH3T 1J4 and Elena L. Glassman glassman@seas.harvard.edu Harvard UniversityCambridgeMassachusettsUSA02134

(2024)

摘要。

我们构思了一个包含人工智能技术的未来设计工作流程。从活动和沟通理论出发，我们试图将大型人工智能模型与过去技术相比在设计中提供的新的价值分离出来。我们得出了三种能力——动态基础、建设性协商和可持续激励——它们总结了自然语言驱动的基础模型的潜在特性，如果明确地为设计而设计，这些特性可以支持设计过程。然后，通过设计小说，我们想象了一个未来的界面作为一个叙事原型，松鼠游戏的故事，它在一个现实的使用场景中展示了我们三个能力中的每一个。我们的设计流程、术语和图表旨在为未来关于人工智能技术与人类设计师协作的相对能力的讨论做出贡献。

语言模型、基础、人机协作、人工智能能力、设计小说

^†^†copyright: acmcopyright^†^†journalyear: 2024^†^†doi: XXXXXXX.XXXXXXX

1. 绪论

人工智能深度学习技术和基础模型（通常称为大型语言模型或 LLM）的出现标志着人机交互 (HCI) 研究的范式转变 (Bommasani 等人，2021)。例如，与 GPT-4-vision 等基础模型进行对话时，人们现在可以提交白板图以生成开放域任务的代码，这些交互之前需要自定义模型和大量的特征工程 (Hammond 和 Davis，2007)。然而，与过去的技术相比，自然语言驱动的基础模型可以为设计过程带来什么独特的价值——更具体地说，为支持设计设计新工具——这一点仍然不清楚。

在本文中，我们想象人工智能系统如何通过设计过程支持用户。我们建立了概念、术语和图表，这些可以帮助在社区中进行进一步的讨论，当讨论支持设计的“人机协作系统”时。首先，我们定义了 LLM 与过去技术相比的三种独特能力：动态基础、建设性协商和可持续激励。每个都与人类如何在联合项目中成功地进行交流和维持参与相关。这些功能是令人向往的，并且在当前的 AI 界面中远未得到很好地使用，甚至根本没有使用。我们还将 AI 的承诺构建为 改变力量动态 (Li 等人，2023a)，在机器与人之间，就交流的依据而言，并且通过减少 翻译工作 (Arawjo，2020)，或人类必须“屈服”于软件交互和表征期望的程度。

通过设计小说和基于场景的设计 (Bleecker, 2022; Nathan 等人，2008)，我们随后在叙事原型中实现了这些功能 (Kirby, 2010)——松鼠游戏的故事，其中一个孩子通过笔式平板电脑与一个名为 游戏制作人 的虚构 AI 游戏设计工具进行交互，共同创建一个以松鼠为主角的 2D 游戏（第 3 节）。基于场景的设计是一种方法，它创建虚构但现实的故事，以想象的技术为中心，目的是推动进一步的设计和讨论 (Linehan 等人，2014; Rosson 和 Carroll, 2012)。松鼠游戏的故事描述了一个扩展的交互，以展示我们三个功能中的每一个如何在现实世界场景中出现。

我们通过数周的草图绘制、想象和在白板、页面或屏幕上共同进行的提示原型设计，得出了这项工作。我们的目标是避免我们作为 HCI 系统研究人员倾向于跳入实现，尽管令人兴奋，但可能会缩小我们的注意力，抑制我们的想象力，并激励我们走向熟悉的设计 (Willis, 2006; Arawjo, 2020; Bleecker, 2022; Rosson 和 Carroll, 2012)。我们希望放慢速度，认真思考，然后再迈出人机交互的下一步。因此，我们的贡献主要是概念性的。在第 4 节中，我们概述了一些技术含义和术语，这些含义和术语对于使游戏制作人成为现实是必要的。

2. AI 的三种设计功能

我们从以下问题开始我们的调查： 自然语言 AI 模型可以为设计流程提供哪些新的价值，而这些价值是经典方法难以或不可能实现的？ 在我们的讨论中，我们借鉴了活动理论，这是早期 HCI 研究中一个突出的人类活动和发展框架 (Kaptelinin 和 Nardi, 2006)，以及 使用语言，克拉克关于人类如何通过联合项目进行合作的开创性著作 (Clark, 1996)。我们将 AI 在动态基础、建设性谈判和可持续激励方面的潜力确定为三个关键功能。这三者都与以下事实有关：基础模型 (a) 在特定领域之外嵌入广泛的文化和社会背景，(b) 可以应用这种理解来增强上下文中的输出，(c) 可以与用户进行自然对话，并适应用户的标记和语言偏好。

在这里，我们以相关文献为依据，对这些功能进行说明和定义。当探讨人工智能如何支持设计流程时，每种功能都可能成为一个富有成果的资源；但是，当前的界面可能无法很好地利用它们，甚至根本不利用它们。它们也不是在人机协作背景下可能有用的唯一功能。

2.1. 动态基础

语言学中的一系列工作，在格赖斯和克拉克 (Clark, 1996; Grice, 1975) 的启发下，将交流视为一种合作游戏，其中两个实体（说话者和听众）都试图相互理解以取得成功。为了让两个实体成功地进行交流，它们不仅需要在语义上进行协调，还需要共享一个共同的表示或术语，我们称之为标记。标记为人和人之间以及人和机器之间的交流奠定了基础。人们以临时的方式为他们的私人交流奠定基础，例如，使用共同商定的术语，绘制图表，记笔记，原型化界面。通过定义和引用视觉、语言和交互式标记，人们在共同参与项目时共同建立共同基础(Clark, 1996)。

以编程为例。在使用编程语言（PL）完成一个目标时，用户既是设计者又是被设计者：首先，权力动态完全掌握在PL一方——用户必须采用该工具的标记。因此，最初编程语言“基础”用户。但是，随着时间的推移，用户通过创建函数、API、库等将自己的标记构建到工具中，这缩短了他们首选的交流方式与工具的固定标记之间的距离——用户基础机器。

尽管人类无法以他们首选的方式为与机器的交流奠定基础，但首先需要学习界面的语言，这是一个需要大量时间、知识和精力的过程。在人机交流中，共同基础传统上是由软件或硬件（以及间接地由其设计者）决定的，并且主要是固定的。换句话说，为了让用户成功地与计算机进行沟通，他们需要服从机器及其设计者的力量 (Li et al., 2023a). 这种学习符号的必要性在口语中被称为学习曲线 (Soloway et al., 1994)，并且一直被HCI社区广泛研究。在过去的几十年里，我们已经走了很长一段路，通过使共享符号和交互直观且易于学习，为大多数用户平滑了学习曲线。然而，既不可能消除学习曲线，也不可能为来自迥然不同社会文化背景的每个用户优化工具。因此，符号和交互仍然很大程度上以预期平均用户为中心，学习的责任在于用户。

基础模型承诺扭转力量动态。大规模 AI 模型是在海量的人类数据上训练出来的，这使得它们能够解释用户的临时符号。像 DynaVis (Vaithilingam et al., 2024) 这样的工具让用户能够动态生成超上下文、临时用户界面来与工具进行交互。学者们引入了术语来指代大型模型的这种特性，例如 Litt 的“可塑软件” (Litt, 2023)，“定制界面”，由 Vaithilingam 和 Guo (2019) 提出的，或者 Google AI 在最近一次演讲中使用的“动态界面” (Google, 2023). 然而，这些术语并没有描述设计材料本身的 affordance，而是描述了其存在带来的结果。要描述事物的 affordance，需要阐明它在世界上为人类提供了什么价值 (Vyas et al., 2006). ¹ ¹1 affordance一词长期以来一直存在争议，并且有无数种定义 (Osiurak et al., 2017). 然而，所有定义都包含这样一种观念： affordance 产生于人类在人类活动中与人工制品之间的关系。我们与 Gibson 一致，认为 affordance 是人工制品“提供给动物的东西，它提供的或装备的东西” (Gibson, 1979, p. 127). AI 模型是（非常！）复杂的产物，它们中的许多 affordance 最初是“隐藏的”（视觉上无法感知）；然而，这并不排除它们的特征，也不意味着它们在当前系统中是完美设计的。这些互动愿景的共同点是，人工智能模型承诺以grounded的方式进行人机之间的沟通以人类偏好的方式，而不是以机器及其设计者的方式。

我们称这种人机交互的赋能为动态 grounding。形容词dynamic指出了与过去软件中建立共同基础的静态的、机器对用户的权力差异的对比(Clark, 1996)(Li 等人, 2023a)。在动态 grounding中，用户以对他们来说最相关的任何方式来为与人工智能的沟通奠定基础。这种“方式”可能是临时的符号、交互、定制界面等。这通常是短暂的或一次性的，比如在绘图中为形状分配意义，这些意义在特定对话之外不再有效。例如，想象一下，用户通过用 Haskell 伪代码写出来向人工智能描述一个算法。第二天，他们通过绘制递归数据结构的树状图来沟通如何改进程序。人工智能通过动态生成的树状图交互式小部件来传达更改，用户可以编辑这些小部件以修改，而不是代码本身。 What人类和人工智能正在沟通的内容——他们的共同项目——保持不变，但how他们沟通这些信息——他们的符号或行话——会随着心血来潮而改变。除了短暂性之外，用户还可以建立一个符号或交互——实际上，为“语法”分配语义——在整个联合项目中保持有效（例如，在数学研究中，符号在早期会议中被定义，然后在随后的会议中被引用，而没有明确的定义）。因此，动态 grounding 的主要特征是用户和机器在建立共同基础时颠覆了传统的权力动态。通过人工智能驱动的界面，用户可以率先建立共同基础，并定义争夺该基础的规则。 ² ²2权力转移并不意味着用户的权力是绝对的（这也不一定是一个有价值的目标，因为与约束的摩擦可能会产生创造性(Kaptelinin 和 Nardi, 2006)）。

2.2. 建设性谈判

几十年来，HCI 设计的一个核心关注点是帮助用户将他们的意图传达给机器，同时将所需的工作量或“翻译工作”降到最低(Arawjo, 2020). 用户体验设计领域甚至发明了一句格言“用户永远是对的”，以表达计算机界面需要服务用户及其意图。因此，最流行的 AI 模型被塑造成“助手”，并被训练得顺从和奉承(Sharma 等人, 2023). 人们正在关注使用 AI 模型来帮助推断和消除用户意图的歧义，无论是单次还是回合制的聊天交互(Ma 等人, 2023).

意图提取功能强大，但设计起来绝非易事。然而，这种人机交互的愿景存在着几个问题。首先，用户拥有一个连贯的“意图”或“计划”，他们只需要将它传达给机器，这种说法很少成立。早期的 HCI 研究表明，人类并不遵循既定的计划，而是根据不断变化的偶然情况采取行动 (Suchman, 1987; Kaptelinin and Nardi, 2006)。另一个相关问题是，用户并不总是正确的。事实上，作为设计师，我们更有可能一开始就出错，或者至少表现不佳，需要快速迭代，直到找到合适的解决方案。通过设计进行研究 (RtD) 的全部研究，即“制造和批评人工制品的过程”，都基于这个前提 (Zimmerman and Forlizzi, 2014, p. 167)。因此，冲突和妥协是良好设计的核心。

各个领域的大量文献都证明了冲突的好处，例如组织管理、软件工程和跨文化交流 (Johnson et al., 2000; Jehn, 1995; Janis, 1972; Gobeli et al., 1998)。每个领域都表明，适度的冲突是有益的，前提是它们得到负责任的管理 (Gobeli et al., 1998)。设计师早已知道这一点——艺术学校会进行设计评审；游戏开发人员会让新手测试他们的作品；小说作家会在出版前让“测试读者”阅读他们的作品；UX 研究人员会进行需求发现访谈并构建低保真原型，以便在投入大量资源进行实施之前及早发现问题。这些“设计评审不仅与美学有关，还与概念、系统、意义和文化有关” (Müller, 2022)。评审不仅能加强想法，还能避免因无意识的同意和自满而导致的灾难 (Janis, 1972)。

那么，在联合项目的合作过程中，谈判是 建设性的，甚至必要的。人工智能不应该将人机交互视为单行道，而应该反驳，建设性地与人类协商，考虑他们尚未预料到的设计方面，无论是设计的功能、形式还是预期的接收。仅仅说建设性谈判是有益的还不够。如上所述，冲突只有在适度且负责任地管理的情况下才能产生积极影响。冲突过于激烈或过于频繁，结果都会受到影响；没有冲突，问题就不会被识别出来，或者团队成员的独特信息会被压制(Cao 等人，2021)。冲突带来的益处也会随着活动水平的不同而有所不同(Jehn，1995)。让我们来解释一下这些发现及其含义。

Jehn 将活动分为两种类型：非例行和例行(Jehn，1995)。 ³ ³3这些大致对应于活动理论中的活动水平，从“活动”到“行为”再到“操作”(Kaptelinin 和 Nardi，2006)。有时，操作是如此机械，以至于领域专家甚至可能没有意识到自己在执行这些操作。冲突是否有益取决于活动的类型和抽象层次。为了更好地理解这一点，请参见图1，它将设计过程表示为一个分形设计螺旋。圆圈的大小代表抽象层次（活动水平），较大的圆圈代表较高的抽象层次。 Jehn 发现，当小组执行“非例行”任务时——这些任务“需要解决问题，流程固定较少，并且有不确定性程度较高”——冲突可能是有益的，甚至可以改善结果(Jehn，1995)。在图1中，这些任务通常发生在较高的活动水平上。同样，我们也看到，在较高的活动水平上，每个决策点都会显著改变项目方向和范围（从图解上看，它们也会显著修改设计空间）。

相比之下，Jehn 发现，“例行公事”、重复性的任务，通常“每次都以相同的方式完成”，不会从冲突中获益。在图 1中，例行任务通常发生在内部螺旋中。在较低级别的活动中，局部决策点不会在设计空间中显着影响项目。例如，定义一个反转字符串的函数是例行的，不会从冲突中获益，而头脑风暴关于松鼠日常生活的游戏设计则是非例行的，并且可能是有益的。因此，在设计早期的阶段和更具形成性的迭代中，我们建议 AI 应该更“对抗性” (Cai et al., 2024)；在较低级别的抽象中，在项目的后期以及在更例行的操作中，AI 应该不那么对抗性。

AI 如何处理冲突也很重要。借鉴 Gobeli et al. (1998)，我们建议 AI 应该促进对抗性的“来回”冲突解决策略——换句话说，是“协作解决问题以达成解决方案”，或者“达成双方都能接受的折衷解决方案”。应该避免回避问题（“撤退”）、淡化分歧（“调和”）或强迫一方采用解决方案（“强制”）的策略 (Gobeli et al., 1998)。换句话说，一个拒绝接受用户想法、严格不认同的 AI 并没有帮助。相反，AI 应该能够提供健康的冲突，并且对分歧的谈判应该以综合观点为最终目标进行。

不幸的是，虽然使用今天的 AI 模型有可能实现建设性谈判，但它却被压制了。强化学习等训练过程导致了阿谀奉承，并阻碍了聊天模型通过互动与用户建立共同基础的能力 (Shaikh et al., 2023b; Sharma et al., 2023)。 Shaikh 等人表明，流行的 LLM 是“假设性的地基”，它们“倾向于在没有使用地基行为的情况下假设共同基础” (Shaikh et al., 2023b)。训练过程的未来进步或替代训练数据可能会改变这一点。模型中存在的阿谀奉承也与公平问题相交，其中像 Anthropic 的“无害”这样的目标很容易与顺从混淆 (Cai et al., 2024)。无害的指令导致 AI 聊天模型极度反感批评用户的想法，甚至在面对错误信息时也同意用户 (Sharma et al., 2023)。尽管如此，最近关于引导 AI 聊天机器人帮助人类练习困难对话的研究表明了“对抗性”AI 的潜力 (Shaikh 等人，2023a；Cai 等人，2024)。

2.3. 可持续的动机

许多值得做的项目都需要时间，需要坚持和努力。在很长一段时间内管理和保持动力非常重要 (Brooks Jr，1995；Beecham 等人，2008；Melo 等人，2012)。成功的管理需要在项目活动的所有层面上进行规划和理解上下文。项目管理框架，例如软件工程中的敏捷，需要详细的文档和统计测量，以不断地修改和适应不断变化的项目环境——例如，不断变化的时间线、需求和技术约束。由于 AI 工具如何嵌入社会和文化知识，它们可以帮助理解用户上下文，通过整合新的上下文信息来改进当前任务和计划，并在项目发展过程中提供高级项目管理。

以前的系统与用户的社会、文化和领域特定问题没有足够多的 共同点。例如，对于 “我女儿病了，我今天需要在家工作来照顾她” 这一表达，之前的 NLP 模型无法理解社会背景并将其智能地应用于调整用户计划。然而，LLM 不能“理解”（或至少看起来理解）社会背景。因此，只要设计了这种功能，它们就可以在项目的过程中支持用户进行即时规划、即兴发挥和激励。

我们将 可持续的动机 定义为 AI 系统提供长期支持，以帮助用户通过即时即兴发挥和对现实世界突发事件的反应来成功完成项目并实现目标的能力。例如，当项目开始时，AI 可以根据项目截止日期将高级抽象计划分解成详细的时间线。每当用户在中断后开始一项新任务或先前任务时，AI 可以帮助用户快速了解他们从哪里离开，自那时以来发生了什么变化，以及如何继续的计划。如果用户当天没有兴趣编程，或者用户在没有互联网连接的飞机上旅行，他们可以将这些限制告知 AI，AI 可以调整计划（例如，不需要互联网连接的任务，他们可以使用数字笔进行草图）甚至为未来的事件准备系统（例如，从互联网预先下载 Figma Jam 文件）。

除了对外部因素做出反应外，AI 还可以对用户明确传达的感受做出反应。如果用户表示他们感到沮丧或精疲力竭，但仍然希望为项目做出贡献，AI 可能会缩小建议的活动类型并调整其回复的语气（即，敌意的程度可能会降低）。例如，对于感到不堪重负的软件开发人员，AI 可以建议用户解决 GitHub 问题，该问题它认为在一小时内很可能解决，类似于自我采购的轻松微任务 (Cai 等人，2016)。相关的是，AI 可以增强上下文信息以帮助用户成功地 重新集中注意力 到正在进行的任务 (Kersten 和 Murphy，2006)。这些信息包括用户在上一节课中停下的位置，当前工作会议和之前工作会议之间的变化，以及其他与任务相关的信息和工件。最后，AI 可以建议在适当的时候进行过渡和休息，以优化用户幸福感和生产力 (Kaur 等人，2020；Hales 等人，2023)，并根据有关用户更广泛背景的信息进行调整，例如日历、电子邮件和短信。

关于 任务切换 和维持 流畅状态 的先前研究为我们提供了可持续地在漫长的开发时间范围内激励用户的支持。流畅 (Csikszentmihalyi，1975) 被定义为一种令人愉快的体验，它参与一项恰当地 具有挑战性 和 激励性 的任务。项目规划和时间管理对于在长时间内保持动力和流畅状态至关重要 (Noda 等人，2023)。

3. 松鼠游戏的故事：与 AI 共同设计愿景

建立了这三种可供性之后，我们便开始设想一个未来的 AI 工具来支持设计过程，该工具位于现实世界的示例中。我们选择 2D 游戏设计作为背景，因为它需要对具有多种媒体模式的复杂系统进行编程，并且得到了广泛理解和广泛适用。采用设计虚构 (Bleecker，2022；Linehan 等人，2014) 和基于情景的设计 (Nathan 等人，2008)，我们设想了一种通过有抱负的虚构故事（写作、插图、草图等）进行的交互，该故事围绕着我们想象的理想设计工具。 ⁴ ⁴4将 HCI 设计与科幻小说相结合，设计虚构是一种“世界构建”活动，它利用“叙事原型”（虚构的），其目的是为讨论开辟一个空间 (Coulton 等人，2017；Lindley 和 Coulton，2015；Bleecker，2022)。设计虚构是“(1) 创造故事世界的东西，(2) 在那个故事世界中被原型化的东西，(3) 这样做是为了创造一个讨论空间” (Lindley 和 Coulton，2015，第 210 页)。这个故事是进一步讨论的出发点，也是动员的中心。我们首先分别构思了工作流程，然后聚在一起分享想法并协商想法。在接下来的几周里，我们会在白板或草稿纸上进行面对面的讨论，通常一坐就是几个小时。在整个设计过程中，我们反思了我们的想象力如何受到过去实践和局限性的影响。我们也警惕过分具体，希望激发而不是规定。

在构思的过程中，我们牢记人工智能的当前发展和技术局限性，遵循设计虚构的理念，即“在科学事实的傲慢与科幻想象的认真玩耍之间工作” (Bleecker, 2022, p. 8)。我们的目标是通过真实的大语言模型 (LLM) 输出来为我们的设计虚构提供依据，这样，只要有足够的时间和资源，我们就知道实际实现是可能的。我们通过原型设计来实现这一点，即通过直接聊天互动和使用 ChainForge 原型设计提示链来原型化 LLM 的协商和规划能力 (Arawjo et al., 2023)。我们将真实的输出融入到我们的故事中。例如，下面关于狐狸反派的建议来自一个 GPT-4 模型的建议，该模型被设计为具有对抗性——对用户的 design ideas 提出严厉但建设性的批评。我们还测试了模型在较低抽象级别（例如，在处理单个级别时）将建议整合到高级设计计划中的能力。

在下面的故事中，我们在前面加上 \tiny{G}⃝ 表示动态接地的实例，\tiny{N}⃝ 表示建设性协商，\tiny{M}⃝ 表示可持续的动机。这些可能不是唯一的实例——例如，\tiny{M}⃝更全面。在第 4 节中，我们将反思这个故事并提出技术实现的含义。

3.1. 场景

游戏开发通常是一个费力的过程——即使对于业余开发者也是如此。它需要学习大量的游戏设计工具、详细的规划等等。在人工智能支持设计即将到来的未来，我们将通过 12 岁的有抱负的游戏设计师艾丽斯的眼睛展示人工智能如何简化游戏设计和开发过程。

爱丽丝和她的父母以及弟弟一起到黄石国家公园旅行。她在过去的春天上过生命科学课，对各种野生动物——野牛、麋鹿、鹰——着迷。她想独自四处走走，探索一下，但她的父母说太危险了。 明白了。

他们开车到一个露营休息站，她的父母和她弟弟一起去买午餐。她坐在车旁的长凳上等候，欣赏风景。一道闪光映入她的眼帘。一只飞翔的、毛茸茸的——什么？它滑过马路，钻进一棵树，然后跑了下来。 一只松鼠？ 这只啮齿动物从她身边跑过，然后钻进地下，叼着坚果出来。

她脑海中闪过一个想法。为了捕捉这一幕，并传达它的复杂性，她拿出她的 iSwitch 64 平板电脑，打开 Game Jammer——这是她游戏开发俱乐部的朋友上个月给她看的工具。她用这款应用的 AI 代理 Jarvis 开始聊天对话，她说：“我想做一个关于松鼠的游戏。”

“ 关于松鼠的游戏？还是为松鼠准备的游戏？ “Jarvis 提出一个澄清问题。艾丽丝注意到，AI 有一个习惯，每当她开始一个新项目时，它都会这样做。

“关于松鼠的，傻瓜。我想做一个关于松鼠为冬天收集坚果的游戏。以及它们遇到的所有道路和障碍。也许还可以体现做一只松鼠的乐趣。”

“ 好的，让我们来探讨一下。在这个游戏里，玩家的目标是什么？比如，第一关。 ”

艾丽丝思考了一会儿。 “他们需要收集坚果。”

\tiny{N}⃝ “ 我可以创建这个游戏，但它听起来有点平淡无奇。 ” 爱丽丝翻了翻白眼。 “ 它需要更多深度和挑战。让我们让这个想法更具创意。 ” 贾维斯列出了三个建议，包括添加能量增强，引入一个反派角色，甚至是一个主角需要喂养的饥饿的松鼠家族。 ⁵ ⁵5这些建议可能涵盖从典型游戏机制到非常不寻常的范围。这里的所有建议都是作者在使用被设定为对用户想法持批判态度的 AI 进行原型设计时，实际看到的 LLM 生成的建议。第 4.6 节讨论了 AI 建议的价值和关注点。

爱丽丝眨了眨眼睛。她甚至没有想过游戏的故事。 “哦，这是一个好主意——一个反派！如果我们把它做成一只狐狸呢？狐狸不是捕猎松鼠吗？”

“ 据维基百科记载，它们确实如此。也许如果松鼠跑得太慢，狐狸就会追它？ ”

\tiny{N}⃝ “当然！我们就用这个吧。” 爱丽丝很兴奋。她还想添加一些能量道具，他们讨论了如何添加一个可以清除路障的能量道具。爱丽丝考虑让松鼠炸毁汽车，但贾维斯认为这有点暴力。他们妥协了一个闪电，它击中了一棵树，把它砍倒在路上，阻止了汽车通过。

“现在想法足够了！我们开始做吧！”爱丽丝的家人仍然不在，但她想在哥哥回来分散她的注意力之前完成一些事情。

“ 好了，这是我理解到的。 ”贾维斯输出一个包含游戏功能的列表，从收集坚果到狐狸反派。爱丽丝简要地浏览了这个列表。 “嗯，好吧。我们现在应该做什么？”

“ 这里有一些步骤。 ”贾维斯输出了一个计划的开始，包括制作前三个关卡的原型和选择一种艺术风格。 “ 我们来制作第一关。我应该根据我们讨论的内容生成一个关卡吗？ ”

\tiny{G}⃝ 爱丽丝从 iSwitch 的皮套中滑出她的触控笔。 “我来画！给我一块画布。” 贾维斯切换到全屏画布。爱丽丝画了一只松鼠，一棵树下的一颗橡子，以及它们之间的道路。 “第一关应该很简单，对吧？拿到坚果，不要被交通压扁。”

“ 你画了一只松鼠，一条路，以及一棵树下的一颗坚果，在路的对面。正确吗？ ” 在贾维斯说话的时候，柔和的颜色突出了他提到的草图中的元素。

“是的。你觉得怎么样？”

\tiny{G}⃝ \tiny{M}⃝ 一只狐狸草图出现在屏幕上，以爱丽丝的粗略风格，正好在松鼠后面。狐狸是灰色的，而不是完全黑色的，表达了贾维斯的建议。贾维斯问道：“ 狐狸反派呢？我们应该在这里介绍它吗？ ”

\tiny{G}⃝ “哦，对了！就说它在睡觉，但很快就会醒来。” 爱丽丝用手指把狐狸拉起来，画出从狐狸身上冒出来的 ZZZ。贾维斯修改了狐狸的草图，使其蜷缩着眼睛闭着。 “ 多久？几秒钟？ ” “十！”

“ 好吧，你想玩它吗？还是我们应该再多思考一下这个想法？ ”

爱丽丝抬起头。仍然没有她家人的踪迹，但他们很快就会回来。她不能在车里工作，她会晕车。而且她今天确实想徒步旅行。 “做出来！快点。我很快就要走了。”

\tiny{M}⃝ Jarvis “思考”，花时间创建了一个可玩的小松鼠游戏原型。它考虑询问爱丽丝她想要什么样的控制方案和艺术风格——然而，爱丽丝很匆忙，希望快速得到结果。引出更多意图只会减慢速度。它查看了爱丽丝在她 iSwitch 64 上玩过的其他游戏的图形和控制，决定采用一种流行的、色彩鲜艳的美学风格和数字摇杆控制，并将这些问题留待日后。

屏幕闪烁，一个带有“松鼠游戏”标题的卡片弹出。一个“开始游戏”按钮在下方。爱丽丝碰触它。

爱丽丝玩游戏，用摇杆移动松鼠。她画了一条短路，每隔几秒钟就有一辆汽车驶过。她轻松地穿过马路，抓住了坚果。 “太棒了！第一关完成”出现在屏幕上。 “嗯，太简单了。也许汽车可以开得更快，或者有更多的汽车？如果汽车疯狂地飞驰怎么办？”

\tiny{M}⃝ Jarvis 考虑开始谈判。然而，它再次记起爱丽丝赶时间。 “我可以加上这一点”，贾维斯说。关卡重置，更多汽车在路上疾驰而过。现在，通过并不那么容易了。

爱丽丝玩着游戏，躲避着汽车。 “好多了！我们能玩第二关吗？”

“爱丽丝，你在做什么？又在玩iSwitch了？”爱丽丝的妈妈出现在她身边，摇摇头。 “该去看看老忠实喷泉了。”爱丽丝收起她的iSwitch，加入家人一起坐上了车。

当爱丽丝继续在国家公园旅行时，贾维斯在后台努力工作，生成游戏更高关卡的设计。第二天早上，爱丽丝手里拿着一杯热腾腾的茶，打开了她的iSwitch 64平板电脑。她点击了Game Jammer。 “嘿，贾维斯！”

“ 欢迎回来，爱丽丝！你早上过得怎么样？ ”

“我的天哪，你不会相信的——昨天我在徒步旅行时看到了一只狐狸！等不及要继续做我们的游戏了。”

\tiny{M}⃝ “ 当然！有一些事情要你复习一下。在我们昨天的会议中，你设计并玩了第一关。 ” 屏幕上出现了第一关的草图。 “ 我想问问你关于游戏的美术风格，但你当时很匆忙。流行艺术风格可以吗，还是你想换一种风格？”

“嗯，我们以后再决定风格吧。你之前做的很好。”

\tiny{M}⃝ “ 好的，我会把它标记起来，留待以后再处理。你不在的时候，我为第二关和第三关设计了一些关卡。你想试着玩一玩它们吗？”

“哦，是的！好吧，让我们试试！ !”

爱丽丝尝试了游戏的下一个关卡。在这个关卡，出现了更大的车辆，例如卡车，这使得穿越道路的时机变得很棘手，她很喜欢这种挑战。然而，在第三关之后，她开始觉得游戏变得单调乏味。 “贾维斯，虽然更多车辆让游戏更具挑战性，但游戏很快就变得相同了。仅仅增加车道和卡车是行不通的。”

\tiny{M}⃝ “ 也许现在是时候考虑引入我们之前讨论过的闪电能量了？ ”

\tiny{M}⃝ “哦！我完全忘记了。这将是完美的。给我一块画布。”

\tiny{G}⃝ “ 这是第三关的设计草图。 ” 贾维斯以与爱丽丝绘制第一关类似的风格呈现了一幅草图，而不是运行时的高保真流行艺术美学。

爱丽丝在第三层的现有设计基础上，在路上画了两个闪电。一个在交通中心的路上，另一个靠近小松鼠一侧的路边。 “你觉得怎么样？”

\tiny{G}⃝ \tiny{N}⃝ “ 那个看起来很容易得到。 ”贾维斯用一个柔和的圆形覆盖，指出了最靠近道路的闪电。 “ 你想要我把它移除吗？还是我们应该讨论修改设计？我们还可以讨论在游戏中获取和激活能量道具的替代方法。 ”

“嗯，我会把它移除的。”爱丽丝把它擦掉了。 “这样好多了。我们试着这样吧！”

“ 等一下，我马上为你准备好关卡。 ”

\tiny{G}⃝ 根据爱丽丝在关卡地图上的标注，贾维斯修改了第3关，并为爱丽丝启动了该关卡。爱丽丝躲过交通，险些撞上一辆卡车，收集到了能量增强道具。一道闪电击中屏幕顶部附近的一棵树，树木倒在路上。令爱丽丝惊讶的是，道路的另一端也出现了“道路封闭”标志。 ⁶ ⁶6在任何用于设计的AI系统中，都需要在AI自己做出假设和解决问题，以及与用户进行明确讨论以消除歧义和解决突发问题之间取得平衡。在这里，贾维斯遇到了在实施设计计划的一部分时出现的逻辑问题，并在没有用户输入的情况下解决了它，因为用户当时不在。交通消失了。爱丽丝现在可以自由地去收集剩下的坚果了。然而，她意识到，停止交通使得收集坚果变得非常容易。

“我喜欢能量增强道具，但如果他们在使用它时让游戏变得太容易怎么办？”

“ 这是游戏设计中风险奖励系统的一个经典问题。风险和奖励应该得到良好的平衡。我有一些想法，如果你想听的话。 ”

“告诉我！”

“ 闪电并不像我想象的那么容易实现。它需要一个路标来阻挡对面的交通，否则车辆会堵在一起。它也很奇幻，并消除了游戏的核心挑战，也就是交通。我认为我们可以对松鼠本身做更多的事情来测试玩家的技能。你怎么看？ ”

“不过我喜欢这个能量增强！但如果我们改变一下呢？如果汽车堵在一起会怎么样？松鼠能溜过去吗？也许还是很难，因为即使汽车没有移动，它们仍然在路上。也许我们可以在后面的关卡里把路修得又长又弯曲。”

“ 我可以试试。我会移除道路封闭标志，并将汽车堵在倒下的树周围。 ”

\tiny{G}⃝ Jarvis 现在生成了一些带有弯曲道路的关卡设计，并在地图上战略性地放置了能量增强。 “ 这里有一些关卡设计可以进行游戏测试。 ”屏幕上出现了三个潜在关卡设计的草图，每个草图都有不同的曲线和能量增强放置位置。爱丽丝点击了一个。

爱丽丝喜欢在复杂的道路弯曲处导航。在第二次尝试中，当她花费了大量时间收集能量增强时，她被狐狸追赶，而使用能量增强后的堵车挡住了她的去路，阻止她到达最后的坚果。 “狡猾的狐狸！”文本出现，并带有“重试？”按钮。

“哎呀，我彻底搞砸了”，爱丽丝说。 “我喜欢有加速器的弯曲道路。” “你能再生成几个这样的关卡吗？” “也许可以有一个关卡有两条路要穿过！”爱丽丝继续与贾维斯合作，确定关卡的最终版本。

几天后，爱丽丝从旅行中回来，兴致勃勃地来到她最喜欢的游戏开发俱乐部，展示她的原型。

“嘿，爱丽丝！” “你黄石公园之行怎么样？”一个戴着眼镜、头发卷卷的男孩约翰问道。

“嗨，约翰！” “旅行很棒。说来也巧，虽然我很喜欢看间歇泉，但我还花了一些时间用Game Jammer制作了一个新游戏。你想试试吗？”

“真是个书呆子假期啊！这就是你带着iSwitch去度假会发生的事。我很想试试你的游戏。也许过会儿我可以多了解一下你使用Game Jammer的体验——我对它持怀疑态度。”

爱丽丝从背包里拿出她的iSwitch平板电脑，与约翰分享了可玩原型。十分钟后，约翰玩完了原型中所有可玩的关卡。

“太酷了，爱丽丝！” “不过我有一些想法。控制有点慢，尤其是当你改变方向时——可以更流畅一些。我也很喜欢闪电的创意，但松鼠不是也会爬树吗？有树却不能爬树很奇怪。也许它们可以是会飞的松鼠，这将是另一种躲避交通的方式。”

爱丽丝回想起坐在长椅上，看到一只松鼠滑过马路。她是在幻想吗？她几乎忘记了这件事。 “松鼠会飞？”

约翰扬起眉毛。 “当然！我去黄石公园的时候，那里有飞鼠。你没有看到吗？”

爱丽丝拿起 iSwitch 并指示贾维斯——“嘿，贾维斯，如果我们给松鼠飞行能力怎么办？”

“ 你是指像超级英雄一样飞，还是像飞鼠一样飞？飞鼠是一种真实的松鼠物种，它们可以用翼膜在树木之间滑翔，或者在它们手臂之间拍打。这里有一个它的视频。 ” 一段视频出现，一只松鼠从树枝上跳下来，滑翔到另一棵树上。

“哇！” 爱丽丝说。 “我想我在黄石公园见过那个！我们一起去看看飞鼠吧。”

\tiny{N}⃝ “ 这听起来像一个独特的转折。有些事情需要考虑。松鼠什么时候可以滑翔，滑翔多长时间？是从游戏开始，还是在之后的级别解锁？它使用的是随着时间推移而积累的耐力条吗？或者你只能在爬上大树之后才能滑翔？ ”

爱丽丝看着约翰，笑着说：“他有时会这样。” 爱丽丝想。 “嗯，贾维斯，我认为它应该在之后解锁。也许松鼠可以滑翔，但前提是它们要爬到树顶。 “这有多难？”

“ 我们需要添加一棵可攀爬的树并向玩家指出。也许有一个特殊的树木图形来表示树木可攀爬。我们可以把它放在路边。但是如果我们不小心，它也可能降低游戏的挑战性。 ”

“嗯，让我们试试，如果太容易就改一下。也许我们在第四关引入它？然后我们必须修改关卡。你能修改游戏来包含它吗？我们以后可以解决细节问题。我想尽快把它展示给我的朋友。”

“ 当然可以。我将继续制作一个新的第四关，其中包含滑翔机制。你想确认一下计划，还是让我重新猜一遍？ ”

爱丽丝微笑着。 “确认。”

“ 我将添加一种新的可攀爬的树木类型。当松鼠通过跑进树木爬到树顶时，它们将按照玩家选择的路线滑翔。这需要对物理引擎进行重大更改，并且需要一段时间才能完成所有更改。听起来不错吗？ ”

“听起来不错！也许我们今晚可以试试，我会在下次俱乐部会议上向我的朋友展示。”

4. 实现的讨论和挑战

我们虚构的故事经过反复修改，以尽可能地真实。我们希望爱丽丝显得真实，而不是实验室研究中虚构的用户，而是现实世界中的孩子，充满了渴望和急切。虽然我们描述了一种未来技术，但我们对贾维斯在处理情况、实施想法和解决意图模糊时过度挥舞和理想化持谨慎态度。如果将 Game Jammer 限制在简单的二维游戏中，它可能今天就存在。然而，即使受到限制，Jammer 如何实现动态接地、触发协商并确保它们保持建设性，记住过去的细节，并维持爱丽丝的动力，对于一个由全职软件设计师和工程师组成的团队来说都是一项巨大的工程。我们相信这样的系统是可以实现的，因此在这里，我们想勾勒一些关于技术实现的想法，并反思这个故事。

在贾维斯与爱丽丝的整个对话过程中，有一个层级会考虑上下文，然后做出决定，无论是在是否需要提出澄清问题、如何措辞其回答，还是如何回答。这个层级实现了可持续的动力，并且是这里考虑的所有三个 AI 模型能力中最全面的。在做出设计决定之前和之后，贾维斯也会考虑协商——对设计的批评，它可能（也可能不）选择向爱丽丝提出的反对意见。谈判的机会与回合制意图推断相交，这是一种在过去工作中描述的赋能方式 (Ma 等人，2023)。最后，Jarvis 让 Alice 主导沟通的接地工作，之后试图在其沟通中融入 Alice 的符号和行话（例如，以她的风格素描，甚至它回复的方式，避免使用复杂的词语和无关紧要的细节）。下面，我们将详细说明 Game Jammer 实施的一些系统需求（4.1-5）和棘手问题（4.6）。

4.1. 设计空间中的位置定位

了解任务（或对话）的抽象级别对于 AI 在设计过程中进行协作至关重要。我们可以将项目的抽象级别视为一个分形设计螺旋（图 1），其中较大的圆圈代表对高级抽象的迭代，而较小的内部圆圈代表对低级抽象的迭代。设计迭代从对项目及其目标的高级抽象讨论开始，到低级别活动，最后到行动。 AI 需要跟踪 用户在 这个概念空间中的位置（即，迭代一个特定的图形还是修改高级游戏机制），以便成功地计划、协商和执行任务。例如，当 Alice 在制作一个闪电增益时，AI 必须将工作定位在第三级，但也将增益识别为一个可以在整个游戏中适用的高级抽象。

任务层次结构是项目的一种潜在表示形式，可以帮助 AI 了解抽象级别并相应地进行行为。每个项目都有一个层次化的任务列表，其中最高级别的任务代表项目的广义组成部分。在 Squirrel Game 中，顶级任务可以是概念化和设计、游戏引擎、游戏资产、音频、玩测试等等。每个高级任务可以有多个低级子任务，以此类推。这个任务列表将不断演变，用户和 AI 都可以根据他们的协商来添加、修改或删除任务。

4.2. 意图推断和消歧

用户意图，一个高级目标，通常是模棱两可的，只有部分可观察到的，并且在整个项目中不断发展。为了使 AI 能够成功地理解、指导和执行用户的目标，AI 应该能够成功地推断和消歧用户的意图。意图引出过程，也被称为 寻找共同点 (Clark, 1996) 或 意图预测 (Qu 等人，2019)，涉及通过理解用户的明确和隐含上下文，使用诸如澄清、确认和跟进 (Clark, 1996) 等奠基行为来开发用户意图的具体模型。在我们的故事中，当 Alice 分享她想创建一个松鼠游戏的意图时，Jarvis 会询问关于游戏玩法的澄清问题，以建立对游戏是什么的共同模型。另一个例子是 Jarvis 在第二天提出艺术风格以从 Alice 那里获得澄清。

意图消歧正成为支持人机协作的系统的标准做法 (Ma 等人，2023；Mu 等人，2023)。 CLARA (Park 等人，2023a) 使用不确定性或模糊性估计和 LLM 推断用户命令的清晰度、模糊性和可行性。我们还可以借鉴大量关于消歧和引出的研究，通过向信息检索和对话系统领域询问澄清问题 (Dhole, 2020; Keyvan 和 Huang, 2022; Krasheninnikov 等人，2022; Min 等人，2020; Rao 和 Daumé III, 2019; Trienes 和 Balog, 2019)。从定位用户在设计空间中的“位置” (图 1)，AI 也可能在更抽象的层次上更积极地解决模糊性，因为高级设计决策通常会产生广泛的连锁效应。

4.3. 为建设性谈判而设计

为了将 AI 的作用提升到合作者的水平，AI 代理需要超越意图引出，并能够对用户的想法进行反驳。促使 AI 具有对抗性可能会让用户进行自我反省，加强想法，甚至摆脱用户信念的现状 (Cai 等人，2024)。在设计中，冲突可以促使用户跳出自己的意图，探索替代路径，以确保他们能及早发现缺陷并迅速解决。 Jarvis 的评论说 Alice 的想法“有点平淡”激发了 Alice 加深她的设计理念。关于 Alice 的炸弹能量道具想法的第二次谈判要求她考虑是否更温和的方法更具吸引力。

实际上，为了利用建设性谈判，AI 必须能够具有对抗性，并且还要探索与用户想法或命令相悖的替代路径。但仅仅对抗性是不够的——AI 必须知道何时和 在什么情况下 进行谈判，以及如何管理它。在第 2.2 节中，我们引用了文献表明，为了使冲突具有建设性，冲突必须适度、负责任地管理，并且 取决于任务。非例行、创造性任务（在高度抽象的层面上）从冲突中获益最多，而例行任务获益最少（图 1 中的“动作”）。图 1b 显示了冲突和协商将导致选择多个可能方向（圆圈）之一的决策点。当抽象级别较高（更大的圆圈）时，选择决策点与较低的抽象级别相比会显着改变设计空间，在较低的抽象级别中，影响范围较小。

在故事中，我们看到了可持续动机和建设性协商之间的紧张关系——Jarvis 必须决定是开始协商，还是批评用户输入，而这个决定有时会受到 Alice 传达的时间限制（紧急情况）的增强。当必须紧急做出决定时，AI 系统决定减少诱导轮次，对 Alice 的意图做出更多假设，并触发更少的协商。我们可以想象，必须达到一个阈值才能触发谈判，这是一个复杂的功能，包含许多超出紧急情况本身的因素（例如，如果用户的设想体现了有害的刻板印象，即使用户很匆忙，AI 也可以被认为有正当理由进行反驳）。在实践中，负责任的对抗性 AI 还涉及同意、上下文和叙事化的考虑 (Cai et al., 2024)。最近的系统，如 Rehearsal (Shaikh et al., 2023a)，提供了一个使用巧妙的提示技术和护栏来产生冲突的例子，这些冲突可以帮助用户使用反事实的“ 那怎么办？ ”场景来追求替代对话路径。

4.4. 规划

AI 对设计过程的有效管理和规划将大大提高用户的生产力。为此，AI 必须动态地适应项目的状态、用户上下文（包括项目内部和外部的上下文）等等。在我们故事的第二天，Jarvis 计划讨论游戏的艺术风格，但由于 Alice 的兴趣，他决定暂时搁置。 AI 不仅可以根据开发时间表规划和分配任务，还可以针对用户的当下兴趣进行优化，还可以针对用户动机进行优化。为了成功实施这一点，我们可以借鉴来自自动化项目管理和 AI 辅助项目管理的研究。尽管当前的研究侧重于数据驱动的方法来优化资源分配，改进风险评估等等 (Taboada et al., 2023; Prifti, 2022; Auth et al., 2021; Gil et al., 2021)，但 Barcaui 等人建议，LLM 辅助的项目管理在资源规划、质量规划、风险管理等方面可能具有中等程度的有效性；LLM 的缺点在于它缺乏与人类经理相比的学科和组织背景 (Barcaui and Monat, 2023)。未来，人工智能可以通过在适当的时机推荐转换和休息来优化用户动机和生产力(Kaur 等人，2020；Hales 等人，2023)，并根据用户更广泛的背景（例如日历、电子邮件和短信）的实时信息重新规划任务。然而，虽然更多的上下文可以提高可持续的动机，但在个人、社会和组织层面存在着与隐私的权衡。本地 LLM 和隐私保护提示调优等技术可以帮助解决这些问题(Li 等人，2023b)。

4.5. 集成

与项目合作者的每一次对话或一项任务的完成，通常都会在其他任务中产生涟漪效应，无论是在抽象层次更高还是更低的层次上。在引出转向消除意图歧义、与用户的协商以及用户决策之后，人工智能必须能够整合这些选择到项目计划或工件中。在 Squirrel Game 中，一旦 Alice 和人工智能在协商过程中决定引入一只狐狸反派作为游戏元素，人工智能就必须修改高级设计计划，并且（可能）在更低的抽象层次上进行添加和更改，例如创建一只狐狸角色作为设计资产，将该角色添加到任何现有的关卡中，生成与选择的音效设计美学一致的声音等等。在另一个例子中，当 Alice 将强化道具的设计具体化（在机制和图形方面）时，Jarvis 必须在生成进一步的关卡设计理念时记住这种抽象。

即使对于像Squirrel Game这样的简单项目，集成也很复杂，它涉及人工智能记住、检索和反映项目所需的上下文信息。当前人工智能系统的一个主要挑战是管理内存和上下文。内存包含完成项目所需的所有数据，类似于人脑，而上下文是模型完成当前任务所需的局部知识——类似于人类的工作记忆。当前的语言模型默认情况下无法做到这一点。然而，Park 等人 (2023b) 的方法表明人工智能代理如何实现长期记忆、记忆检索、反思和规划机制，这些机制对于集成是必要的。我们还可以使用向量数据库实现长期生成式代理记忆，并使用检索增强生成等方法检索适当的上下文。像 CodePlan(Bairi 等人，2023) 这样的工具使用 LLM 通过多步编辑链执行存储库级别的代码编辑。

4.6. 设计支持工具中的比喻和刻板印象

在设计过程中，设计师必须在许多决策点和抽象级别（图 1b）之间做出选择。人类设计师受到认知负荷的限制，容易忘记重要的细节或错过设计中的某些方面，直到他们注意到为止。即使是一般的想法，例如建议游戏的叙事，也可能被证明是有益的，因为它们会导致用户思考他们尚未考虑的设计维度。建议打开了抽象设计空间中以前未被发现或遗忘的变异维度，正如变异理论 (Marton, 2014) 所预测的那样。变异理论和活动理论都认为，新元素与现有设计之间的对比（活动理论称之为“矛盾”）可以改进设计并支持人类发展 (Kaptelinin and Nardi, 2006; Marton, 2014)。

然而，人工智能建议的权衡是，它们可能是让设计师偏向熟悉的陈规俗套。游戏设计本身就是一种张力，在重混过去的陈规俗套（机制、美学、叙事等）与新的、意想不到的想法之间寻求平衡。陈规俗套是设计捷径——它们可以加快速度、激励设计师并帮助用户上手——但是，它们也可能导致一般性的体验。 ⁷ ⁷7例如，平台游戏 Celeste (2018) 在其机制上并没有什么新意，而是通过其叙事和音乐进行了创新。在故事中，我们看到这种张力体现在 Jarvis 和 Alice 之间的最初谈判中。 Jarvis 称 Alice 的想法“有点平淡无奇”，并建议三种方法来增强它：能量增强、反派角色或松鼠收集坚果（为一个饥饿的家庭）的叙事动机。所有这三种都是 GPT-4 在我们的提示原型设计中给出的实际建议。虽然最后一个对我们来说最出乎意料，但前两个可以说是视频游戏的陈规俗套。这些陈规俗套可以将她固定或偏向，排除了其他选择（例如，让整个叙事围绕生态灾难和森林砍伐展开——也许随着松鼠的生态系统城市化，关卡会变得更难）。尽管将人工智能设置为对抗性似乎减少了建议的泛化性，但人工智能在谈判过程中推荐的内容仍然可能是陈规俗套。这是一个棘手的问题 (Buchanan, 1992)——没有“最佳”解决方案来创建“完美”的设计工具，该工具是“无偏见”的——但是，该工具有可能使用户产生偏见，将他们固定在平庸但熟悉的设计选择上，这是需要始终考虑的事情。尽管如此，即使是陈词滥调和其他通用的建议也具有价值：它们包含与爱丽丝外部化原型和/或当前意图的对比，这有助于她辨别并考虑她以前没有考虑过的设计方面 (Marton, 2014)). 人工智能工具的设计者可以在他们的设计选择中考虑这一点：例如，人工智能向用户呈现多少替代方案，或者在界面中在哪里以及如何要求用户输入（例如， (Ma et al., 2023)).

4.7. 系统需求概述

总之，以下是要实现 Jarvis（人工智能代理）的关键系统需求。 Jarvis 需要记住：

•

游戏设计的高级计划（机制、艺术风格、故事、感觉、声音等）
•

爱丽丝是谁的模型（她的目标、偏好、愿望，可能包括背景和年龄）
•

当前外部环境的模型（例如，时钟）
•

游戏开发的任何限制（例如，目标受众或平台、截止日期）
•

过去交互的历史（对话、爱丽丝采取的行动等，也称为 记忆流 (Park et al., 2023b))

Jarvis 还需要一个模型，说明何时以及如何：

•

提问以消除意图歧义
•

开始谈判或冲突，并解决冲突
•

引用过去的事件或上下文信息

在设计创建过程中，Jarvis 需要：

•

将较低抽象级别（例如，第一级）做出的决策集成到较高级别（即高级计划）中
•

提出短期任务和长期发展计划，以成功执行项目
•

定位其在设计空间中的“位置”（即，用户当前正在迭代哪个抽象级别？）并在设计空间中“导航”（即，从第一级到调整整体机制）
•

以用户的符号偏好为基础提供其贡献和建议（例如，以类似于爱丽丝的草图风格画一只狐狸，或使用类似于爱丽丝的语言和术语）

5. 结论和下一步

在本文中，我们描述了 LLM 支持设计工作的三个优势。与先前专注于人类-人工智能协作的广泛原则或自上而下指令的工作不同（例如，(Wang 等人，2020；Shneiderman，2022)），我们采用自下而上的方法，以设计虚构为中心，通过场景来使用。虽然我们的论文以线性方式呈现了我们的想法，但实际上，优势、故事和技术细节在我们的设计讨论中是相互构成的——叙述促进了优势，优势促进了叙述，技术可行性的原型促进了优势等等。

在定义了三个优势后的几周里，它们在我们与其他人类-人工智能交互研究人员的谈话中反复出现。许多其他研究人员试图解释其中一个术语描述的质量，但却没有用一个术语来描述。与我们参与的其他论文不同，我们的动机是为未来的设计讨论提供清晰度——其他人会接触到这些现象，但很可能是以一种支离破碎的方式，在分别专注于某一方面或其他方面的单独论文中。我们希望这种命名法能够帮助未来的研究交流——如果我们意识到这些优势，我们就可以明确地谈论在研究中使用和探索它们，有效地将我们的对话范围限制在大型人工智能模型与现有技术相比可以提供价值的确切地方。

重要的是要注意，我们并不认为用当前的人工智能模型来实现或利用我们三个优势中的每一个都很容易。为了实现我们对近期未来的愿景，还需要大量的支架、技术创新和界面设计的评估。我们使用设计虚构的方法也有几个局限性。虽然我们避免提出具体的界面和实现，而是倾向于唤起而不是规定，但设计界面的过程可能会让我们接触到我们在这里没有预料到的问题和机会。我们也没有考虑与多个用户和利益相关者进行人机协作。虽然我们相信我们提到的三个优点仍然适用，但多人参与可能会带来更多需要解决的挑战。

参考文献

(1)
Arawjo (2020) Ian Arawjo. 2020. To Write Code: The Cultural Fabrication of Programming Notation and Practice. In Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems (Honolulu, HI, USA) (CHI ’20). Association for Computing Machinery, New York, NY, USA, 1–15. https://doi.org/10.1145/3313831.3376731
Arawjo et al. (2023) Ian Arawjo, Chelse Swoopes, Priyan Vaithilingam, Martin Wattenberg, and Elena Glassman. 2023. ChainForge: A Visual Toolkit for Prompt Engineering and LLM Hypothesis Testing. arXiv preprint arXiv:2309.09128 (2023).
Auth et al. (2021) Gunnar Auth, Jan Jöhnk, and Dennis A Wiecha. 2021. A Conceptual Framework for Applying Artificial Intelligence in Project Management. In 2021 IEEE 23rd Conference on Business Informatics (CBI), Vol. 1. IEEE, 161–170.
Bairi et al. (2023) Ramakrishna Bairi, Atharv Sonwane, Aditya Kanade, Arun Iyer, Suresh Parthasarathy, Sriram Rajamani, B Ashok, Shashank Shet, et al. 2023. Codeplan: Repository-level coding using llms and planning. arXiv preprint arXiv:2309.12499 (2023).
Barcaui and Monat (2023) André Barcaui and André Monat. 2023. Who is better in project planning? Generative artificial intelligence or project managers? Project Leadership and Society 4 (2023), 100101.
Beecham et al. (2008) Sarah Beecham, Nathan Baddoo, Tracy Hall, Hugh Robinson, and Helen Sharp. 2008. Motivation in Software Engineering: A systematic literature review. Information and software technology 50, 9-10 (2008), 860–878.
Bleecker (2022) Julian Bleecker. 2022. Design fiction: A short essay on design, science, fact, and fiction. Machine Learning and the City: Applications in Architecture and Urban Design (2022), 561–578.
Bommasani et al. (2021) Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al. 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258 (2021).
Brooks Jr (1995) Frederick P Brooks Jr. 1995. The mythical man-month (anniversary ed.).
Buchanan (1992) Richard Buchanan. 1992. Wicked problems in design thinking. Design issues 8, 2 (1992), 5–21.
Cai et al. (2024) Alice Cai, Ian Arawjo, and Elena L. Glassman. 2024. Antagonistic AI. (Feb 2024). Manuscript in submission for publication.
Cai et al. (2016) Carrie J Cai, Shamsi T Iqbal, and Jaime Teevan. 2016. Chain reactions: The impact of order on microtask chains. In Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems. 3143–3154.
Cao et al. (2021) Hancheng Cao, Vivian Yang, Victor Chen, Yu Jin Lee, Lydia Stone, N’godjigui Junior Diarrassouba, Mark E Whiting, and Michael S Bernstein. 2021. My team will go on: Differentiating high and low viability teams through team interaction. Proceedings of the ACM on Human-Computer Interaction 4, CSCW3 (2021), 1–27.
Clark (1996) Herbert H Clark. 1996. Using language. Cambridge university press.
Coulton et al. (2017) Paul Coulton, Joseph Galen Lindley, Miriam Sturdee, and Michael Stead. 2017. Design fiction as world building. (2017).
Csikszentmihalyi (1975) Mihaly Csikszentmihalyi. 1975. Flowing: A general model of intrinsically rewarding experiences. Journal of Humanistic Psychology (1975).
Dhole (2020) Kaustubh D Dhole. 2020. Resolving intent ambiguities by retrieving discriminative clarifying questions. arXiv preprint arXiv:2008.07559 (2020).
Gibson (1979) James J. Gibson. 1979. The Ecological Approach to Visual Perception. (1979).
Gil et al. (2021) Jesús Gil, Javier Martinez Torres, and Rubén González-Crespo. 2021. The application of artificial intelligence in project management research: A review. (2021).
Gobeli et al. (1998) David H Gobeli, Harold F Koenig, and Iris Bechinger. 1998. Managing conflict in software development teams: A multilevel analysis. Journal of Product Innovation Management: AN INTERNATIONAL PUBLICATION OF THE PRODUCT DEVELOPMENT & MANAGEMENT ASSOCIATION 15, 5 (1998), 423–435.
Google (2023) Google. 2023. Personalized AI for you — Gemini.
Grice (1975) Herbert P Grice. 1975. Logic and conversation. In Speech acts. Brill, 41–58.
Hales et al. (2023) Jeffrey Hales, Wenqian Hu, and Ivo Tafkov. 2023. Juggling Creativity and Productivity: How Incentive Scheme and Task Switching Affect Creativity in a Multitask Environment. Available at SSRN 3374305 (2023).
Hammond and Davis (2007) Tracy Hammond and Randall Davis. 2007. LADDER, a sketching language for user interface developers. In ACM SIGGRAPH 2007 courses. 35–es.
Janis (1972) Irving L Janis. 1972. Victims of Groupthink: A psychological study of foreign-policy decisions and fiascoes. (1972).
Jehn (1995) Karen A Jehn. 1995. A multimethod examination of the benefits and detriments of intragroup conflict. Administrative science quarterly (1995), 256–282.
Johnson et al. (2000) David W Johnson, Roger Johnson, and Dean Tjosvold. 2000. Constructive controversy. The handbook of conflict resolution: Theory and practice (2000), 65–85.
Kaptelinin and Nardi (2006) Victor Kaptelinin and Bonnie A Nardi. 2006. Acting with technology: Activity theory and interaction design. MIT press.
Kaur et al. (2020) Harmanpreet Kaur, Alex C Williams, Daniel McDuff, Mary Czerwinski, Jaime Teevan, and Shamsi T Iqbal. 2020. Optimizing for happiness and productivity: Modeling opportune moments for transitions and breaks at work. In Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. 1–15.
Kersten and Murphy (2006) Mik Kersten and Gail C Murphy. 2006. Using task context to improve programmer productivity. In Proceedings of the 14th ACM SIGSOFT international symposium on Foundations of software engineering. 1–11.
Keyvan and Huang (2022) Kimiya Keyvan and Jimmy Xiangji Huang. 2022. How to approach ambiguous queries in conversational search: A survey of techniques, approaches, tools, and challenges. Comput. Surveys 55, 6 (2022), 1–40.
Kirby (2010) David Kirby. 2010. The Future is Now: Diegetic Prototypes and the Role of Popular Films in Generating Real-world Technological Development. Social Studies of Science 40, 1 (2010), 41–70. http://www.jstor.org/stable/27793341
Krasheninnikov et al. (2022) Dmitrii Krasheninnikov, Egor Krasheninnikov, and David Krueger. 2022. Assistance with large language models. In NeurIPS ML Safety Workshop.
Li et al. (2023a) Jingyi Li, Eric Rawn, Jacob Ritchie, Jasper Tran O’Leary, and Sean Follmer. 2023a. Beyond the Artifact: Power as a Lens for Creativity Support Tools. In Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology (San Francisco, CA, USA) (UIST ’23). Association for Computing Machinery, New York, NY, USA, Article 47, 15 pages. https://doi.org/10.1145/3586183.3606831
Li et al. (2023b) Yansong Li, Zhixing Tan, and Yang Liu. 2023b. Privacy-preserving prompt tuning for large language model services. arXiv preprint arXiv:2305.06212 (2023).
Lindley and Coulton (2015) Joseph Lindley and Paul Coulton. 2015. Back to the future: 10 years of design fiction. In Proceedings of the 2015 British HCI conference. 210–211.
Linehan et al. (2014) Conor Linehan, Ben J. Kirman, Stuart Reeves, Mark A. Blythe, Theresa Jean Tanenbaum, Audrey Desjardins, and Ron Wakkary. 2014. Alternate endings: using fiction to explore design futures. In CHI ’14 Extended Abstracts on Human Factors in Computing Systems (Toronto, Ontario, Canada) (CHI EA ’14). Association for Computing Machinery, New York, NY, USA, 45–48. https://doi.org/10.1145/2559206.2560472
Litt (2023) Geoffrey Litt. 2023. Malleable software in the age of LLMs. https://www.geoffreylitt.com/2023/03/25/llm-end-user-programming.html
Ma et al. (2023) Xiao Ma, Swaroop Mishra, Ariel Liu, Sophie Su, Jilin Chen, Chinmay Kulkarni, Heng-Tze Cheng, Quoc Le, and Ed Chi. 2023. Beyond ChatBots: ExploreLLM for Structured Thoughts and Personalized Model Responses. arXiv preprint arXiv:2312.00763 (2023).
Marton (2014) Ference Marton. 2014. Necessary conditions of learning. Routledge.
Melo et al. (2012) Claudia de O Melo, Célio Santana, and Fabio Kon. 2012. Developers motivation in agile teams. In 2012 38th Euromicro Conference on Software Engineering and Advanced Applications. IEEE, 376–383.
Min et al. (2020) Sewon Min, Julian Michael, Hannaneh Hajishirzi, and Luke Zettlemoyer. 2020. AmbigQA: Answering Ambiguous Open-domain Questions. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 5783–5797.
Mu et al. (2023) Fangwen Mu, Lin Shi, Song Wang, Zhuohao Yu, Binquan Zhang, Chenxue Wang, Shichao Liu, and Qing Wang. 2023. ClarifyGPT: Empowering LLM-based Code Generation with Intention Clarification. arXiv e-prints (2023), arXiv–2310.
Müller (2022) Boris Müller. 2022. Design Critique Culture. https://borism.medium.com/design-critique-culture-b7350baab11c. Accessed: 2024-2-6.
Nathan et al. (2008) Lisa P Nathan, Batya Friedman, Predrag Klasnja, Shaun K Kane, and Jessica K Miller. 2008. Envisioning systemic effects on persons and society throughout interactive system design. In Proceedings of the 7th ACM conference on Designing interactive systems. 1–10.
Noda et al. (2023) Abi Noda, Margaret-Anne Storey, Nicole Forsgren, and Michaela Greiler. 2023. DevEX: What Actually Drives Productivity? Commun. ACM 66, 11 (2023), 44–49.
Osiurak et al. (2017) François Osiurak, Yves Rossetti, and Arnaud Badets. 2017. What is an affordance? 40 years later. Neuroscience & Biobehavioral Reviews 77 (2017), 403–417.
Park et al. (2023a) Jeongeun Park, Seungwon Lim, Joonhyung Lee, Sangbeom Park, Minsuk Chang, Youngjae Yu, and Sungjoon Choi. 2023a. CLARA: classifying and disambiguating user commands for reliable interactive robotic agents. IEEE Robotics and Automation Letters (2023).
Park et al. (2023b) Joon Sung Park, Joseph O’Brien, Carrie Jun Cai, Meredith Ringel Morris, Percy Liang, and Michael S Bernstein. 2023b. Generative agents: Interactive simulacra of human behavior. In Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. 1–22.
Prifti (2022) Valma Prifti. 2022. Optimizing Project Management using Artificial Intelligence. European Journal of Formal Sciences and Engineering 5, 1 (2022), 30–38.
Qu et al. (2019) Chen Qu, Liu Yang, W Bruce Croft, Yongfeng Zhang, Johanne R Trippas, and Minghui Qiu. 2019. User intent prediction in information-seeking conversations. In Proceedings of the 2019 Conference on Human Information Interaction and Retrieval. 25–33.
Rao and Daumé III (2019) Sudha Rao and Hal Daumé III. 2019. Answer-based Adversarial Training for Generating Clarification Questions. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 143–155.
Rosson and Carroll (2012) Mary Beth Rosson and John Carroll. 2012. Scenario-Based Design. In The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging Applications, Third Edition. CRC Press, 1105–1124.
Shaikh et al. (2023a) Omar Shaikh, Valentino Chai, Michele J Gelfand, Diyi Yang, and Michael S Bernstein. 2023a. Rehearsal: Simulating conflict to teach conflict resolution. arXiv preprint arXiv:2309.12309 (2023).
Shaikh et al. (2023b) Omar Shaikh, Kristina Gligorić, Ashna Khetan, Matthias Gerstgrasser, Diyi Yang, and Dan Jurafsky. 2023b. Grounding or Guesswork? Large Language Models are Presumptive Grounders. arXiv preprint arXiv:2311.09144 (2023).
Sharma et al. (2023) Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R Johnston, et al. 2023. Towards understanding sycophancy in language models. arXiv preprint arXiv:2310.13548 (2023).
Shneiderman (2022) Ben Shneiderman. 2022. Human-centered AI. Oxford University Press.
Soloway et al. (1994) Elliot Soloway, Mark Guzdial, and Kenneth E Hay. 1994. Learner-centered design: The challenge for HCI in the 21st century. interactions 1, 2 (1994), 36–48.
Suchman (1987) Lucille Alice Suchman. 1987. Plans and situated actions: The problem of human-machine communication. Cambridge university press.
Taboada et al. (2023) Ianire Taboada, Abouzar Daneshpajouh, Nerea Toledo, and Tharaka de Vass. 2023. Artificial Intelligence Enabled Project Management: A Systematic Literature Review. Applied Sciences 13, 8 (2023), 5014.
Trienes and Balog (2019) Jan Trienes and Krisztian Balog. 2019. Identifying unclear questions in community question answering websites. In Advances in Information Retrieval: 41st European Conference on IR Research, ECIR 2019, Cologne, Germany, April 14–18, 2019, Proceedings, Part I 41. Springer, 276–289.
Vaithilingam et al. (2024) Priyan Vaithilingam, Elena L Glassman, Jeevana Priya Inala, and Chenglong Wang. 2024. DynaVis: Dynamically Synthesized UI Widgets for Visualization Editing. arXiv preprint arXiv:2401.10880 (2024).
Vaithilingam and Guo (2019) Priyan Vaithilingam and Philip J Guo. 2019. Bespoke: Interactively synthesizing custom GUIs from command-line applications by demonstration. In Proceedings of the 32nd annual ACM symposium on user interface software and technology. 563–576.
Vyas et al. (2006) Dhaval Vyas, Cristina M Chisalita, and Gerrit C Van Der Veer. 2006. Affordance in interaction. In Proceedings of the 13th Eurpoean conference on Cognitive ergonomics: trust and control in complex socio-technical systems. 92–99.
Wang et al. (2020) Dakuo Wang, Elizabeth Churchill, Pattie Maes, Xiangmin Fan, Ben Shneiderman, Yuanchun Shi, and Qianying Wang. 2020. From human-human collaboration to Human-AI collaboration: Designing AI systems that can work together with people. In Extended abstracts of the 2020 CHI conference on human factors in computing systems. 1–6.
Willis (2006) Anne-Marie Willis. 2006. Ontological designing. Design philosophy papers 4, 2 (2006), 69–92.
Zimmerman and Forlizzi (2014) John Zimmerman and Jodi Forlizzi. 2014. Research through design in HCI. In Ways of Knowing in HCI. Springer, 167–189.