本文介绍了 MOCAS,这是一个专用于人类认知工作量(CWL)评估的多模式数据集。与基于虚拟游戏刺激的现有数据集相比,MOCAS 中的数据是从现实的闭路电视 (CCTV) 监控任务中收集的,增加了其对现实场景的适用性。为了构建 MOCAS,使用了两个现成的可穿戴传感器和一个网络摄像头来收集 21 名人类受试者的生理信号和行为特征 ...
在数据湖中查找可连接的表是许多应用程序(例如数据集成、数据增强、数据分析和数据市场)中的关键过程。查找可等连接表的传统方法无法处理拼写错误和不同格式,也无法捕获任何语义连接。在本文中,我们提出了 PEXESO,一个用于数据湖中可连接表发现的框架 ...
实体匹配是确定两个实体描述是否引用同一现实世界实体的任务。最先进的实体匹配方法通常依赖于微调 Transformer 模型,例如 BERT 或 RoBERTa。使用这些模型进行实体匹配的两个主要缺点是:(i)模型需要大量的微调数据才能达到良好的性能;(ii)微调模型对于分布外实体而言并不稳健 ...
通过联邦学习( fl)构建推荐系统是推进下一代互联网服务和隐私保护的新挑战。现有方法通过fl训练共享项目嵌入,同时保持用户嵌入在客户端的私密性。然而,为所有客户端嵌入相同,为所有客户端嵌入相同的项目无法捕获用户感知同一项目的个体差异,从而导致个性化较差... ...
文本到SQL提供操作数据库的零代码接口,在金融分析领域严肃关注;因为,金融专业人士可能不擅长SQL编程。然而,无论如何,还没有用于金融分析的实用文本- to-SQL基准数据集,而现有的文本到SQL方法没有考虑金融应用中数据库的独特特征,例如常见的宽表。为了解决这些问题,我们收集了一个实用的文本到SQL基准数据集,并提出了一个与模型相关的基于大型语言模型(LLM) SQL 财务分析框架的文本... ...
本文提出了一种基于chatgpt的零样本文本到sql方法,称为c3,spider的蜘蛛的保留测试集上执行准确率达到82.3%,spider挑战中的文本到sql方法。c3 c3由三个关键部分组成:cp)(cp)(cp)(CO)(CO)(CO)(CO)(CO),分别对应模型输入、模型偏差和模型输出 ...
作为图迁移学习的一个具体案例,图上的无监督域适应旨在将知识从富含标签的源图转移到未标记的目标图。然而,具有拓扑和属性的图通常具有相当大的跨域差异,并且在许多现实场景中,源图中仅标记了节点的子集。由于严重的领域转移和标签稀缺,这给图迁移学习带来了严峻的挑战 ...
数据库系统通常依赖历史查询跟踪来执行基于工作负载的性能调整。然而,实际生产工作负载是随时间变化的,使得历史查询对于优化未来工作负载无效。为了应对这一挑战,我们提出了sibyl,这是一种基于端到端机器学习的框架 ...
如何在保护隐私的同时探索高维敏感关系数据的未知属性?我们研究如何在差异隐私下构建可探索的隐私保护物化视图。现有的最先进的方法还没有同时满足数据探索中的以下基本属性:工作负载独立性、分析可靠性(即 ...
借助数据管道工具和 SQL 的表达能力,管理相互依赖的物化视图 (MV) 变得越来越容易。这些 MV 在新数据摄取时会重复更新(例如 ...