数据库管理系统(DBMS)配置调试,例如,诊断配置较差的DBMS旋钮并生成故障排除建议,对于优化DBMS性能至关重要 ...
现有的自然语言对SQL(NL2SQL)解决方案已取得了重大进步,但挑战持续解释和翻译NL查询,这主要是由于用户对数据库模式或对特定表或列值的记忆偏见有限的理解有限。这些挑战通常会导致不正确的NL2SQL翻译。为了解决这些问题,我们提出了重写器,这是一种插件模块,旨在通过自动重写模棱两可或有缺陷的NL查询来增强NL2SQL系统 ...
尽管大型语言模型 (LLM) 在复杂任务上表现出了令人印象深刻的性能,但它们仍然面临着较长的上下文理解和较高的计算成本。为了平衡效率和质量,我们引入了 LLMSteer,这是一个无需微调的框架,可通过独立于查询的注意力引导来增强 LLM。在流行的 LLM 和数据集上进行测试后,LLMSteer 将与基线的性能差距缩小了 65 ...
现代计算系统的快速进步导致人们对信息丰富的运行时日志越来越感兴趣。已经提出了各种基于日志的异常检测技术来确保软件可靠性。然而,由于缺乏高质量的公共日志资源作为训练数据集,它们在行业中的实施受到了限制 ...
多文档摘要由于其固有的主观偏见而成为一项具有挑战性的任务,DUC-2004 参考摘要中注释者间 ROUGE-1 分数低至 0.4 就凸显了这一点。在这项工作中,我们的目标是通过关注一组相关新闻文件的主要事件并在足够的背景下连贯地呈现它来增强新闻摘要的客观性 ...
查询优化是每个数据库管理系统 (DBMS) 的关键部分,因为它决定查询执行的效率。许多工作将机器学习 (ML) 技术引入成本建模、基数估计和端到端学习优化器,但由于训练时间长、缺乏可解释性和集成成本,其中很少被证明是实用的。最近的一项研究提供了一种通过推荐每个查询提示来优化查询的实用方法,但它存在两个继承问题 ...
自动代码审查(ACR)可以减轻人工检查的成本,是软件工程中不可或缺的重要任务。为了处理ACR,现有的工作是序列化抽象语法树(AST)。然而,用序列编码方法理解整个 AST 是一项艰巨的任务,主要是因为 AST 中的一些冗余节点阻碍了节点信息的传输 ...
由于时间序列语料库的可用性有限以及可扩展预训练的探索不足,时间序列的基础模型尚未完全开发。基于时间序列和自然语言的相似顺序表述,越来越多的研究证明了利用大型语言模型(LLM)处理时间序列的可行性。然而,LLM固有的自回归特性和仅解码器架构尚未得到充分考虑,导致LLM能力的利用不足 ...
机器学习 (ML) 越来越多地用于影响社会的高风险应用。因此,机器学习模型不传播歧视至关重要。在社会应用中收集准确的标记数据具有挑战性且成本高昂 ...
在信息流行时代,拥有有效监控快速传播的猖獗谣言的工具,以及识别可能更容易传播此类错误信息的弱势用户至关重要。这种积极主动的做法可以及时采取预防措施,减轻虚假信息对社会的负面影响。我们提出了一种使用统一图神经网络模型来预测病毒式谣言和易受攻击用户的新颖方法 ...