现代计算系统的快速进步导致人们对信息丰富的运行时日志越来越感兴趣。已经提出了各种基于日志的异常检测技术来确保软件可靠性。然而,由于缺乏高质量的公共日志资源作为训练数据集,它们在行业中的实施受到了限制 ...
多文档摘要由于其固有的主观偏见而成为一项具有挑战性的任务,DUC-2004 参考摘要中注释者间 ROUGE-1 分数低至 0.4 就凸显了这一点。在这项工作中,我们的目标是通过关注一组相关新闻文件的主要事件并在足够的背景下连贯地呈现它来增强新闻摘要的客观性 ...
查询优化是每个数据库管理系统 (DBMS) 的关键部分,因为它决定查询执行的效率。许多工作将机器学习 (ML) 技术引入成本建模、基数估计和端到端学习优化器,但由于训练时间长、缺乏可解释性和集成成本,其中很少被证明是实用的。最近的一项研究提供了一种通过推荐每个查询提示来优化查询的实用方法,但它存在两个继承问题 ...
自动代码审查(ACR)可以减轻人工检查的成本,是软件工程中不可或缺的重要任务。为了处理ACR,现有的工作是序列化抽象语法树(AST)。然而,用序列编码方法理解整个 AST 是一项艰巨的任务,主要是因为 AST 中的一些冗余节点阻碍了节点信息的传输 ...
由于时间序列语料库的可用性有限以及可扩展预训练的探索不足,时间序列的基础模型尚未完全开发。基于时间序列和自然语言的相似顺序表述,越来越多的研究证明了利用大型语言模型(LLM)处理时间序列的可行性。然而,LLM固有的自回归特性和仅解码器架构尚未得到充分考虑,导致LLM能力的利用不足 ...
机器学习 (ML) 越来越多地用于影响社会的高风险应用。因此,机器学习模型不传播歧视至关重要。在社会应用中收集准确的标记数据具有挑战性且成本高昂 ...
在信息流行时代,拥有有效监控快速传播的猖獗谣言的工具,以及识别可能更容易传播此类错误信息的弱势用户至关重要。这种积极主动的做法可以及时采取预防措施,减轻虚假信息对社会的负面影响。我们提出了一种使用统一图神经网络模型来预测病毒式谣言和易受攻击用户的新颖方法 ...
我们引入新的数据集“CORD-19-Vaccination”,以满足专门研究 COVID-19 疫苗相关研究的科学家的需求。该数据集是从 CORD-19 数据集 [Wang 等人,2020] 中提取的,并增加了语言详细信息、作者人口统计、关键词和每篇论文主题的新列 ...
本研究对复杂的 SQL 基准测试 TPC-DS 与两个现有的文本到 SQL 基准测试 BIRD 和 Spider 进行了比较分析。我们的研究结果表明,与其他两个基准测试相比,TPC-DS 查询表现出明显更高水平的结构复杂性。这强调需要更复杂的基准来有效地模拟现实场景 ...
离线强化学习通常需要高质量的数据集来训练策略。然而,在许多情况下,不可能获得这样的数据集,也不容易在给定离线数据的情况下训练策略在实际环境中表现良好。我们建议使用数据蒸馏来训练和蒸馏更好的数据集,然后将其用于训练更好的政策模型 ...