作为数据预处理策略,特征选择已被证明是为各种数据挖掘和机器学习问题准备数据(尤其是高维数据)的有效效率。功能选择的目标包括:构建更简单,更可理解的模型,改善数据挖掘性能以及准备清洁,可理解的数据。最近的大数据扩散提出了一些重大挑战和特征选择的机会 ...
数据是大型语言模型(LLM)的基石,但并非所有数据都对模型学习有用。精心挑选的数据可以以更少的计算开销更好地激发 LLM 的能力。大多数方法在数据选择时侧重于评估单个样本的质量,而忽略了样本之间的组合效应 ...
大型语言模型 (LLM) 的激增彻底改变了自然语言接口 (NLI) 的数据分析功能。 LLM 可以执行多步骤和复杂的推理,以根据用户的分析意图生成数据见解。然而,这些见解通常与分析对话中的大量上下文(例如代码、可视化和自然语言解释)纠缠在一起 ...
由于大型语言模型(LLM)在许多领域和任务中展示了其强大的能力,包括上下文理解,代码生成,语言生成,数据讲故事等,许多数据分析师可能会引起人们的担忧,如果他们的工作将被人工智能(AI)取代。这个有争议的话题引起了公众的极大关注 ...
数据分析对于从数据中提取有价值的见解至关重要,可以帮助组织做出有效的决策。我们引入 InsightBench,这是一个具有三个关键特征的基准数据集。首先,它由代表不同业务用例(例如财务和事件管理)的 100 个数据集组成,每个数据集都包含一组精心策划的见解 ...
自动洞察力生成是一种共同的策略,用于帮助知识工作者(例如数据科学家)快速了解新的和不熟悉的数据的潜在价值。不幸的是,大语模型产生的自动见解可以生成无法正确对应(或对齐)与洞察力的代码。在本文中,我们利用大语言模型的语义知识来产生有关数据和相应代码的有针对性和有见地的问题,以回答这些问题 ...
经过大型语言模型(LLMS)受过培训,有可能编码可视化设计知识和最佳实践。但是,如果他们不这样做,他们可能会提供不可靠的可视化建议。那么,LLMS了解到哪些可视化设计偏好?我们贡献Dracogpt,这是一种从LLM中提取,建模和评估可视化设计偏好的方法 ...
为了理解大量数据,我们经常拟合简化的模型,然后解释参数。例如,我们聚集文本嵌入,然后解释每个群集的平均参数。但是,这些参数通常是高度的,难以解释。为了使模型参数直接解释,我们介绍了由自然语言谓词参数化的统计模型家族(包括聚类,时间序列和分类模型) ...
从大型数据集中发现有意义的见解,即探索性数据分析(EDA),是一项艰巨的任务,需要对数据进行彻底的探索和分析。自动化数据探索(ADE)系统使用面向目标的方法,具有大型语言模型,并增强了学习的方法来完全自动化。但是,这些方法需要人参与才能预测可能限制洞察力提取的目标,而全自动系统则需要大量的计算资源和新数据集的重新培训 ...
探索性数据分析 (EDA) 与 SQL 相结合,对于参与数据探索和分析的数据分析师至关重要。然而,数据分析师经常遇到两个主要挑战:(1) 需要熟练地编写 SQL 查询,(2) 需要生成合适的可视化类型以增强查询结果的解释。由于其重要性,人们进行了大量的研究工作来探索解决这些挑战的不同方法,包括利用大型语言模型(LLM) ...