许多现实世界应用(例如医疗保健和工业)中的多元时间序列数据信息丰富,但由于缺乏标签和高维度而具有挑战性 ...
随着天文设施的发展,这些设施观测到的大规模时间序列数据正在被收集。分析这些天文观测中的异常对于揭示潜在的天体事件和物理现象至关重要,从而推进科学研究进程。然而,现有的时间序列异常检测方法无法解决天文观测的独特特征,即每颗恒星本质上都是独立的,但受到随机并发噪声的干扰,导致误报率很高 ...
该演示展示了一个用于增量视图维护 (IVM) 的新开源 SQL-to-SQL 编译器。虽然以前的系统(例如 DBToaster)在单独的系统中实现了 IVM 的计算功能,但 OpenIVM 的核心原理是利用现有的 SQL 查询处理引擎并通过 SQL 执行所有 IVM 计算。这种方法可以将 IVM 集成到这些系统中,而无需重复代码 ...
深度学习最近取得了显着的进展,这主要归功于大型、标记良好的数据集的可用性。然而,对此类数据集的训练会提高成本和计算需求。为了解决这个问题,文献中探索了诸如核心集选择、数据集蒸馏和数据集量化等各种技术 ...
在本文中,我们研究了使用手腕佩戴的可穿戴设备根据加速度来预测心率。尽管现有的光电体积描记法 (PPG) 心率传感器可提供可靠的测量,但它们使用的能量比加速度计多得多,并且对可穿戴设备的电池寿命有重大影响。通过使用节能加速计来预测心率,可以显着节省能源 ...
为监督学习获取标签可能会很昂贵。为了提高神经网络回归的样本效率,我们研究了自适应选择批量未标记数据进行标记的主动学习方法。我们提出了一个框架,用于根据(网络相关的)基础内核、内核转换和选择方法构建此类方法 ...
流学习(SL)需要模型快速适应连续数据流,这使其与传统的持续学习(CL)不同。最近的 SL 方法通过选择数据子集进行训练来强调效率,但由于依赖于静态的、基于规则的选择算法,而这些算法无法有效地适应数据重要性的变化,因此它们常常陷入困境。在这项工作中,我们介绍了 StreamPrompt,这是一种通过动态、可学习的提示来增强数据选择的方法 ...
最近,人们对应用大型语言模型(LLM)作为零样本段落排序器越来越感兴趣。然而,很少有研究探索如何为段落排序任务选择合适的上下文演示,这也是本文的重点。之前的研究主要应用演示检索器来检索演示,并使用 top-$k$ 演示进行上下文学习(ICL) ...
现代数据库管理系统 (DBMS) 公开了数百个可配置旋钮来控制系统行为。确定这些旋钮的适当值以提高 DBMS 性能是数据库社区中长期存在的问题。由于需要调整的旋钮数量不断增加,并且每个旋钮都可能是连续值或分类值,因此手动调整变得不切实际 ...
大型语言模型 (LLM) 通过最大限度地减少复杂特征工程的需求,彻底改变了自然语言处理 (NLP)。然而, LLM 在生物制药和化学等专业领域的应用在很大程度上仍未得到探索。这些领域的特点是复杂的术语、专业知识以及对通用 LLM 常常无法满足的精确领域的高要求 ...