大红豆的文档

大红豆

个性签名 ...

Table-LLM-Specialist: Language Model Specialists for Tables using Iterative Generator-Validator Fine-tuning

在这项工作中，我们提出了简短的table-llm专家或表格主义者，作为一种专门为桌子任务设计的新的自训练的微调范式。我们的见解是，对于每个表任务，通常存在两个同一任务的双重版本，一种生成性和一个分类。利用它们的二元性，我们建议从语言模型的迭代产生效率的培训数据，以对可以专业化给定任务的更强\ sys模型进行迭代生成效率的培训数据，而无需手动标记的数据 ...

0 0 0 0 2025/03/05 arXiv:2410.12164v1 大红豆

RETQA: A Large-Scale Open-Domain Tabular Question Answering Dataset for Real Estate Sector

房地产市场在很大程度上依赖结构化数据，例如物业细节，市场趋势和价格波动。但是，缺乏专门的表格问题回答该域中的数据集限制了自动提问系统的发展。为了填补这一空白，我们介绍了RETQA，这是第一个大规模开放域中的中国表格问题，答复了房地产的数据集 ...

0 0 0 0 2025/03/05 arXiv:2412.10104v2 大红豆

Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive Data Analysis Agents

交互式数据分析是人类与LLM代理之间的协作，可以实时数据探索知情决策。收集现实的交互式日志进行数据分析的挑战和成本阻碍了此任务中大语言模型（LLM）代理的定量评估。为了减轻此问题，我们介绍了Tapilot-Crossing，这是一种新的基准，用于评估LLM代理在交互式数据分析中 ...

0 0 0 0 2025/03/05 arXiv:2403.05307v1 大红豆

Learn to Explore: on Bootstrapping Interactive Data Exploration with Meta-learning

交互式数据探索（IDE）是理解大数据的有效方法，其数量和复杂性超出了人类的能力。 IDE的主要目标是通过用户标签的多轮发现从数据库中发现用户兴趣区域。现有的IDE采用主动学习框架，用户迭代区分或标记选定元组的兴趣 ...

0 0 0 0 2025/02/28 arXiv:2212.03423v4 大红豆

DataSciBench: An LLM Agent Benchmark for Data Science

本文介绍了DataScibench，这是评估数据科学中大型语言模型（LLM）功能的综合基准。最近的相关基准主要集中于单个任务，易于获得的地面真相以及直接的评估指标，这限制了可以评估的任务范围。相比之下，DataScibench是基于更全面和精心策划的自然和具有挑战性的提示，以确保不确定的地面真相和评估指标 ...

0 0 0 0 2025/02/28 arXiv:2502.13897v1 大红豆

WaitGPT: Monitoring and Steering Conversational LLM Agent in Data Analysis with On-the-Fly Code Visualization

大型语言模型（LLMS）通过对话用户界面支持数据分析，如Openai的ChatGpt（正式称为高级数据分析或代码解释器）所示。从本质上讲，LLMS生成用于完成多种分析任务的代码。但是，呈现原始代码可能会掩盖逻辑并阻碍用户验证 ...

0 0 0 0 2025/02/27 arXiv:2408.01703v1 大红豆

LightVA: Lightweight Visual Analytics with LLM Agent-Based Task Planning and Execution

Visual Analytics（VA）要求分析人员根据观察值提出分析任务，并通过创建可视化和交互式探索以获得见解来执行任务。此过程需要编程，数据处理和可视化工具的技能，强调需要采用更智能，简化的VA方法。最近已经开发了大型语言模型（LLMS）作为代理，以通过动态计划和使用工具功能来处理各种任务，从而提供了提高VA效率和多功能性的潜力 ...

0 1 0 0 2025/02/26 arXiv:2411.05651v1 大红豆

Text2Analysis: A Benchmark of Table Question Answering with Advanced Data Analysis and Unclear Queries

表格数据分析在各个领域至关重要，并且大型语言模型在该领域显示出希望。但是，当前的研究主要集中于诸如Text2SQL和TableQA之类的基本任务，忽略了预测和图表生成等高级分析。为了解决这一差距，我们开发了文本2分析基准，并结合了超出SQL兼容操作的高级分析任务，并且需要更深入的分析 ...

0 0 0 0 2025/02/26 arXiv:2312.13671v1 大红豆