LLM4Vis:使用 ChatGPT 的可解释可视化推荐

  Lei Wang   Songheng Zhang   Yun Wang   Ee-Peng Lim   Yong Wang
Singapore Management University
Microsoft Research Asia
{lei.wang.2019, shzhang.2021, eplim, yongwang}@smu.edu.sgwangyun@microsoft.com

  Corresponding author.

数据可视化是一种功能强大的工具,用于探索和传达各个领域的见解。 为了自动为数据集选择可视化,一项称为可视化推荐的任务被提了出来。 针对这一目的,已经开发了各种基于机器学习的方法,但它们通常需要大量数据集-可视化对来进行训练,并且缺乏对其结果的自然解释。 为了解决这一研究空白,我们提出了 LLM4Vis,一种新颖的基于 ChatGPT 的提示方法,用于执行可视化推荐并使用极少的演示示例返回类似人类的解释。 我们的方法包括特征描述、演示示例选择、解释生成、演示示例构建和推理步骤。 为了获得具有高质量解释的演示示例,我们提出了一种新的解释生成自举方法,通过考虑先前的生成和基于模板的提示来迭代地细化生成的解释。 在 VizML 数据集上的评估表明,LLM4Vis 在少样本和零样本设置中都优于或与随机森林、决策树和 MLP 等监督学习模型的性能相似。 定性评估还表明了 LLM4Vis 生成的解释的有效性。 我们在 https://github.com/demoleiwang/LLM4Vis 上公开发布了我们的代码。

1 引言

数据可视化是一种功能强大的工具,用于探索数据、传达见解以及在各个领域做出明智的决策,例如商业、科学研究、社交媒体和新闻报道 Munzner (2014); Ward et al. (2010) 但是,创建有效的可视化需要熟悉数据和可视化工具,这可能需要大量的时间和精力 Dibia and Demiralp (2019a) 一项自动为输入数据集选择可视化的任务,也被称为 可视化推荐,已经被提了出来。

到目前为止,可视化推荐工作可以分为基于规则和基于机器学习的方法 Hu et al. (2019b); Li et al. (2021); Zhang et al. (2023) 基于规则的方法 Mackinlay (1986); Vartak 等人 (2015); Demiralp 等人 (2017) 利用数据特征和可视化原则来预测可视化,但存在规则表达能力有限和泛化能力差的缺点。 基于机器学习的方法 Hu 等人 (2019b); Wongsuphasawat 等人 (2015); Zhou 等人 (2021) 从数据集-可视化对中学习机器学习 (ML) 或深度学习 (DL) 模型,这些模型可以提供更高的推荐准确性和可扩展性。 但是,现有的 ML/DL 模型通常需要大量的训练数据集-可视化对,并且无法为推荐结果提供解释。 最近,一项基于机器学习的工作 KG4Vis Li 等人 (2021) 利用知识图来实现可解释的可视化推荐。 然而,KG4Vis 仍然需要使用大量数据语料进行监督学习,其解释是基于预定义的模板生成的,这限制了解释的自然性和灵活性。

近年来,大型语言模型 (LLM) 如 ChatGPT OpenAI (2022) 和 GPT-4 OpenAI (2023) 已证明了使用情境学习的强大推理能力 Brown 等人 (2020); Zhang 等人 (2022); Chowdhery 等人 (2022) 这一背后的关键思想是使用类比示例进行学习 Dong 等人 (2022) 通过情境学习,LLM 可以有效地执行复杂的任务,包括但不限于数学推理 Wei 等人 (2022)、视觉问答 Yang 等人 (2022) 和表格分类 Hegselmann 等人 (2023),无需监督学习。 通过提示预训练的 LLM 使用情境学习来执行任务,我们避免了将 LLM 调整到新任务时参数更新的开销。

受 ChatGPT 在自然语言任务中的出色表现的启发 Qin 等人 (2023); Li 等人; Sun 等人 (2023); Gilardi 等人 (2023),我们探索了利用 ChatGPT 进行可解释的可视化推荐的可能性。 具体来说,我们提出了 LLM4Vis,一种新颖的基于 ChatGPT 的情境学习方法,用于 Visualization recommendation,通过从极少量的 dataset-visualization 对中学习,提供自然的人类语言解释。 LLM4Vis 包含几个关键步骤:特征描述、演示示例选择、 解释生成引导、提示构建、 以及可解释可视化推荐的推理。 首先,特征描述用于定量地表示表格数据集的特征,这使得使用 ChatGPT 更容易分析和理解表格数据集。 然后,使用演示示例选择来检索 K 最近的标记数据示例,以防止输入长度超过 ChatGPT 的最大长度。 接下来,我们提出了一种新的迭代细化策略,根据先前的生成和提示来获得更高质量的推荐解释和每个可视化类型在提示构建之前的分数。 最后,使用构建的提示来指导 ChatGPT 为测试表格数据集推荐可视化类型,同时提供推荐分数和人类语言解释。

我们通过将 LLM4Vis 的可视化建议准确性与来自 VisML Hu 等人 (2019a) 的强大基于机器学习的基准(如决策树、随机森林和 MLP)进行比较,评估了 LLM4Vis 的可视化建议。 可视化建议结果表明,LLM4Vis 在少样本和全样本训练设置中都优于所有基准。 此外, LLM 和人类进行的评估表明,生成测试数据示例的解释与预测得分匹配。 我们的贡献总结如下:

  • 我们提出了 LLM4Vis,一种新颖的基于 ChatGPT 的提示方法,用于可视化建议,它可以实现准确的可视化建议,并提供类似人类的解释。

  • 我们提出了一种新的解释生成自举方法,用于为提示构建生成高质量的推荐解释和分数。

  • 实验结果表明 LLM4Vis 的实用性和有效性,鼓励进一步探索 LLM 用于可视化建议。

Refer to caption
图 1: LLM4Vis 的详细说明。 (a) 将标记的表格数据集转换为最终提示的演示示例的过程,包括特征提取、特征描述和解释生成自举。 (b) 测试表格数据集的可视化类型推荐过程,包括演示示例选择、提示构建和推理。

2 相关工作

关于自动可视化建议方法的先前研究可以分为两组:不可解释的可视化建议方法和可解释的可视化方法 Wang 等人 (2021) 不可解释的可视化建议方法, 包括 Data2vis Dibia 和 Demiralp (2019b)、VizML Hu 等人 (2019a) 和 Table2Chart Zhou 等人 (2021), 可以为输入数据集推荐合适的可视化,但无法向用户提供推荐背后的推理,使它们成为黑盒方法。 可解释的可视化建议方法为其推荐结果提供解释,从而增强透明度和用户对推荐的信心。 大多数依赖于人为定义的规则,例如 Show Me Mackinlay 等人 (2007) 和 Voyager Wongsuphasawat 等人 (2015) 但是,基于规则的方法通常很耗时且资源密集,并且需要可视化专家进行手动规范。 为了解决这些局限性,Li 等人 (2021) 提出了一种基于知识图谱的推荐方法 (KG4Vis),该方法从现有的可视化实例中学习规则。 为了提供人性化的解释,本文提出利用 ChatGPT 来推荐合适的可视化方法。

3 LLM4Vis 方法

3.1 概述

本节介绍我们提出的 LLM4Vis 方法。 如图 1 所示,LLM4Vis 包含几个关键步骤:特征描述、演示示例选择、解释生成引导、提示构建和推理。 为了节省空间,我们在附录中展示了我们在 LLM4Vis 中使用所有提示的精确措辞。

3.2 特征描述

大多数大型语言模型,如 ChatGPT OpenAI (2022),都是基于文本语料库进行训练的。 为了允许 ChatGPT 以表格数据集作为输入,我们可以首先使用预定义规则将其转换为一组数据特征,这些特征定量地表示其特征。 随后,这些特征可以被序列化成文本描述。

遵循 VizML Hu 等人 (2019b) 和 KG4Vis Li 等人 (2021),我们提取了 80 个 跨列 数据特征,这些特征捕获列之间的关系,以及 120 个 单列 数据特征,这些特征量化了每列的属性。 我们将与列相关的数据特征分类为 类型名称 类型对应于列的数据类型,值捕获诸如分布和异常值等统计特征,名称与列的名称相关。

先前的工作 Hegselmann 等人 (2023); Dinh 等人 (2022) 主要通过使用规则、模板或语言模型来执行序列化。 在这篇论文中,为了确保语法正确性、灵活性以及丰富性,我们遵循 TabLLM 提出的 LLM 序列化方法 Hegselmann 等人 (2023) 具体来说,我们的方法包括提供一个提示,指示 ChatGPT 为每个表格数据集生成一个全面的文本描述,该描述分析了来自单列和跨列视角的特征值。 然后使用特征描述来构建简洁但信息丰富的演示示例。

3.3 演示示例选择

由于最大输入长度限制,ChatGPT 提示只能容纳少量演示示例。 因此,从大量标记数据中选择好的演示样本至关重要。 而不是随机选择可能与目标测试表格数据集无关的示例 Liu 等人 (2021), 我们首先通过将每个表格数据集的特征转换为向量来表示它。 然后,我们使用聚类算法从标记集中选择代表性的示例子集。 聚类算法创建 C 个聚类,我们从每个聚类中选择 R 个代表性示例,从而得到大小为 M=C×R 的子集作为检索集。 最后,我们根据其向量表示的余弦相似度分数从检索集中检索与目标数据示例具有最高相似度分数的 K 个训练数据示例。

3.4 解释生成自举

每个标记数据示例 Xi 仅带有一个基本真值标签 Yi,但没有在演示示例中使用的解释。 因此,我们建议使用一个提示来利用 ChatGPT 的内置知识,为每个标记数据集推荐合适的可视化效果以及相应的解释。 我们的策略包括指示 ChatGPT 以 JSON 格式生成响应,其中键对应于四种可能的可视化类型 {YLC,YSP,YBC,YBP} (LC: 折线图,SP: 散点图,BC: 柱状图,BP: 箱线图),而值是推荐分数 {SLC,SSP,SBC,SBP} 此外,我们提示 ChatGPT 在迭代过程中为其对每种可视化类型的预测生成解释 {ExLC,ExSP,ExBC,ExBP}

具体来说, 我们使用零样本提示和表格数据集的特征描述来要求 ChatGPT 为所有可视化类型生成分数 {SLC1,SSP1,SBC1,SBP1},并提供解释 {ExLC1,ExSP1,ExBC1,ExBP1} 来支持这些分数分配给每种可视化类型。 这些分数的总和必须为 1. 随后,这些分数和解释通过一个迭代细化过程进行修正,该过程在真实可视化类型 Yi 获得最高分数,并且该分数比第二高分数至少高出 0.1 的差值时终止。 最终的解释和分数分别用 {ExLCf,ExSPf,ExBCf,ExBPf} 和分数 {SLCf,SSPf,SBCf,SBPf} 表示。 但是,如果真实可视化类型不满足上述条件,我们将开发一个提示并将其附加到初始的零样本提示中,以指示 ChatGPT 生成更准确的输出。 一个示例提示模板如下:“{a} 可能比 {b} 更合适。但是,之前的分数是 {c}”。 {a} 槽用于真实标签,{b} 槽用于得分最高的错误标签,{c} 槽用于先前预测的每个可视化类型的分数。 在实验部分,我们比较了两种提示策略,包括使用真实标签 (GT-As) 和随机标签 (Rand-As) 作为提示。 结果可以在图 2 中找到。

通过这种迭代细化,我们可以获得更高质量的可视化类型预测,以及相应的评分和解释。 请注意,如果标记的数据集在最大迭代步骤内无法满足停止条件,我们将从检索集中删除此数据示例。

3.5 提示构建和推理

从检索集中为测试数据样本检索 K 个最近的标记样本,以及它们的特征描述、细化后的解释和细化后的评分,每个演示示例都使用特征描述、任务说明、推荐的可视化类型及其评分和解释构建。 然后,我们将测试数据示例的特征描述合并到预定义的模板中。 接下来,将构建的演示示例和测试数据示例的完成模板串联起来,并将其输入 ChatGPT 以执行可视化类型推荐。 最后,我们从 ChatGPT 输出中提取推荐的可视化效果和解释。

4 评估

4.1 评估设置

表 1: 我们定量评估的结果,最佳结果以粗体突出显示。 LLM4Vis-随机是指从检索集中随机选择演示示例。 相反,LLM4Vis-检索是指从检索集中检索 K 最近的标记数据示例。 请注意,使用 5 个演示的 LLM4Vis 表现优于使用完整样本 (5000) 训练的机器学习基线,并提供这些基线无法实现的人类般的解释。
Settings Methods Hits@2
Line Scatter Bar Box Overall
Full Samples Decision Tree 57.3 60.0 100 56.0 68.3
Random Forest 92.0 100 90.7 32.0 78.7
MLP 97.3 100 93.3 24.0 78.7
Few-Shot (4) Fixed Decision Tree 42.7 12.0 100 41.3 49.0
Random Forest 66.7 78.7 38.7 65.3 62.0
MLP 70.7 85.3 44.0 45.3 61.0
LLM4Vis 53.3 80.0 84.0 93.3 77.7
Few-Shot Dynamic LLM-SP-Random 36.0 86.0 96.0 46.0 66.0
LLM-SP-Retrieval 68.0 94.0 90.0 32.0 71.0
LLM4Vis-Random 46.7 69.3 84.0 90.7 72.7
LLM4Vis-Retrieval 62.4 96.0 86.8 97.2 85.7
Zero-Shot LLM-SP 64.0 84.0 56.0 64.0 65.0
LLM4Vis 64.0 88.0 76.0 89.3 79.3

数据集。 我们利用 VizML 语料库 Hu 等人 (2019b) 来构建我们的训练集、验证集和测试集。 我们从语料库中选择 100 个数据可视化对的子集,以评估我们模型的测试性能。 这些对包括 25 个折线图、25 个散点图、25 个条形图和 25 个箱线图。 我们在实验中采用两种不同的训练设置。 在第一个设置中,我们使用语料库中的 5000 个数据可视化对集来训练所有基线模型。 在第二个少样本设置中,我们使用聚类技术 Pedregosa 等人 (2011) 从 5000 个对中提取 4×15 个数据可视化对,以构建大小为 (M=60) 的检索集。

大语言模型设置。 我们使用 GPT-3.5 的 gpt-3.5-turbo-16k 版本进行实验,该版本广为人知为 ChatGPT。 我们选择 ChatGPT 是因为它是一个公开可用的模型,通常用于评估大型语言模型在下游任务中的性能   Sun 等人 (2023);Qin 等人 (2023);Li 等人 . 为了进行我们的实验,我们利用 OpenAI API,它提供了对 ChatGPT 的访问权限。 我们的实验是在 2023 年 6 月至 2022 年 7 月之间进行的,生成允许的最大令牌数设置为 1024。 为了增强我们生成的输出的确定性,我们将温度设置为 0。 由于 ChatGPT 的输入长度限制(即 16,384 个令牌),我们将上下文演示 K 的数量限制为 8。

基线。 我们将与来自 VizML Hu et al. (2019a) 的强大的可视化类型推荐基线进行比较。 具体来说,我们将我们的方法与决策树、随机森林和 MLP 基线进行比较,这些基线使用 scikit-learn 以及默认设置实现 Pedregosa et al. (2011) 通过完整数据训练,这些强大的基线有望胜过少样本方法。 我们还将我们的方法与一种名为 LLM-SP 的简单提示技术进行比较。 在零样本设置中,提示中的指令是要求 ChatGPT 根据给定表格数据集的提取特征来推荐可视化类型。 在少样本设置中,提示中的每个演示示例都包含一个指令、给定表格数据集的提取特征以及相应的标记可视化类型。

指标。 我们提出的方法 直接根据大型语言模型做出两个可视化设计选择。 参考 KG4Vis Li et al. (2021),我们采用了一个常用的指标来评估我们方法的有效性:Hits@2,它表示前两个选项中正确可视化设计选择的比例。

4.2 主要结果

1 显示,在完整样本训练设置中,我们的少样本 LLM4Vis 优于所有基线,包括决策树、随机森林和 MLP,这表明 LLM 可以通过从有限的演示示例中学习并利用内置的关于可视化的背景知识,有效地推荐适当的可视化类型。 请注意,即使是零样本 LLM4Vis 也能优于这些强大的基线。 少样本设置的两种类别为:固定动态 在固定设置中,为所有测试示例选择固定的演示示例,LLM4Vis 优于所有基线。 在动态设置中,我们为每个测试示例选择相关的演示示例。 具有动态少样本设置的 LLM4Vis 优于随机选择的演示。 这表明相关的演示示例可以提供有用的信息,以指导 LLM 为测试表格数据集推荐合适的可视化类型。

4.3 深入分析

Refer to caption
图 2: LLM4Vis 各个组件的效果。 所有方法均在相同的测试数据集上进行评估。 全部:保持所有模块不变。 随机:随机选择一种可视化类型作为推荐。 -Ex:从提示中删除解释。 -Des:从提示中删除特征描述。 -Rank:直接预测可视化类型。 Nearest: 使用最近的示例进行预测。 Iter-1: 在提示中使用未经细化的解释。 Iter-2: 在提示中使用经过一步细化的解释。 GT-As: 使用真实标签作为提示,在提示中生成解释。 Rand-As: 使用随机标签作为提示,在提示中生成解释。
(a) (b)
Refer to caption Refer to caption
(c) (d)
Refer to caption Refer to caption
图 3: 上下文示例数量(a)、检索集中示例的数量(b)、不同的基础大型语言模型 (c) 以及 K 个最近示例作为上下文示例的排序 (d) 的影响。

LLM4Vis 各个组件的影响。

2 展示了 LLM4Vis 变体的比较结果,其中一个组件被移除或替换。 发现,在提示中缺少解释、特征描述和推荐评分会导致零样本和少样本设置中的性能下降。 随着解释细化迭代次数的增加,性能会提高。 将提出的提示替换为真实标签或随机标签会导致性能大幅下降。 同样,使用最近的演示示例的预测作为测试示例的预测也会导致性能显著下降,这表明 LLM 有效地从给定的演示示例中学习,而不是仅仅复制它们。 总体而言,提出的 LLM4Vis 的所有组件都有助于提高推荐准确性。


我们评估了演示示例数量对 LLM4Vis 性能的影响。 具体来说,我们研究了 LLM4Vis,使用不同的最近演示示例集,范围从 1 到 7 个实例。 结果如 图 3(a) 所示,表明更多的演示示例会导致更好的性能,尽管当演示示例的数量从 3 增加到 4 时性能下降。


我们量化了检索集大小的影响。 我们在不同大小的检索集上测试 LLM4Vis,范围从 1060 个示例。 3(b) 显示,随着检索集大小的增加,LLM4Vis 的性能得到提高。 这可能是因为更大的检索集可以找到更多相关的最近邻居。 这表明 LLM4Vis 通过扩展检索集可以取得更好的结果。 随着检索集大小从 50 增加到 60,我们观察到性能提升程度下降。 这表明 k 近邻演示示例中与测试数据相关的的信息可能没有成比例地增加。


我们还使用各种 LLM 评估 LLM4Vis,包括不同版本的 GPT-3.5。 根据官方指南,ChatGPT 具有最高的能力,而 text-davinci-002 是三个 LLM 中能力最弱的模型。 正如预期的那样,图 3(c) 说明,随着模型能力从 text-davinci-002 提高到 ChatGPT,模型性能得到改善。 总体而言,这些结果表明,能力更强的 LLM 通常会提供更好的推荐准确性。


我们比较了三种演示顺序:随机(将K最近的邻居随机排列)、最远(首先选择相似度最低的样本)和最近(首先选择相似度最高的样本)。 3(d) 中的结果表明,LLM4Vis 对K所选演示的顺序敏感。 具体来说,在 LLM4Vis 框架内使用“最远”排序会导致最低的结果,而“最近”排序会导致最强的性能。 这表明相关的演示可以稳定 LLM 的上下文学习。


在本节中,我们评估了在一个测试表格数据集中生成的解释与可视化类型推荐的预测分数之间的一致性。 采用两种评估指标:基于 LLM 的评估和人工评估。

基于 LLM 的评估测量了由 LLM4Vis 生成的预测分数与 ChatGPT 基于 LLM4Vis 生成的解释预测的分数之间的皮尔逊相关性。 更高的皮尔逊相关性意味着预测分数和解释之间的一致性更强。 我们获得了零样本 LLM4Vis 的皮尔逊相关性为 0.78,少样本 LLM4Vis 的皮尔逊相关性为 0.92。 这些发现表明,与零样本 LLM4Vis 相比,少样本 LLM4Vis 在其预测分数和生成的解释之间表现出更高的一致性。

除了基于 LLM 的评估之外,我们还手动检查了十个正确的推荐,以进一步验证生成的解释与预测分数之间的一致性。 我们的检查表明,十个示例中有九个示例展示了它们的解释与预测分数之间的一致性。 一个特定实例的生成解释和预测分数不一致。 这可能是因为基本事实标签的预测分数很低,并且是第二高的。

5 结论

本文提出了一种基于 ChatGPT 的新型上下文学习方法 LLM4Vis,用于可视化推荐,该方法可以通过仅学习少量数据集-可视化对来生成具有类似人类解释的准确可视化推荐。 我们的方法包括几个关键步骤,包括特征提取、特征描述、解释生成、演示示例选择、提示生成和推理。 我们对推荐结果和解释的评估证明了 LLM4Vis 的有效性和可解释性,这鼓励了人们进一步探索大型语言模型以完成此任务。

基于 LLM 的可视化推荐可以使许多初创公司和基于 LLM 的应用程序能够推进数据分析,增强洞察力的沟通,并帮助决策。 在未来的工作中,我们计划探索将 LLM4Vis 部署到现实世界的数据分析和可视化应用程序中的可能性,并通过数据分析师和普通可视化用户进一步证明其有效性和可用性。 此外,研究使用其他具有多模态能力的大型语言模型(例如 GPT-4)进行可视化推荐也很有意思。

6 致谢

该项目得到新加坡教育部学术研究基金第 2 层(提案 ID:T2EP20222-0049)的支持。 本材料中表达的任何意见、发现和结论或建议均为作者的观点,并不反映新加坡教育部的观点。


