基于自然语言描述的音频文本检索是一项具有挑战性的任务。它涉及在数据不足的条件下学习长序列之间的跨模态比对。在这项工作中,我们研究了几种音频特征以及序列聚合方法,以实现更好的音频文本对齐 ...
准确评估金融问答 (QA) 系统需要包含不同问题类型和上下文的综合数据集。然而,当前的财务 QA 数据集缺乏范围多样性和问题复杂性。这项工作介绍了 FinTextQA,这是一个用于金融领域长格式问答 (LFQA) 的新颖数据集 ...
我们推出了 Timer-XL,这是一个用于统一时间序列预测的生成式 Transformer。为了统一预测 1D 和 2D 时间序列,我们将主要用于 1D 序列因果生成的下一个标记预测推广为多变量下一个标记预测。所提出的范例将各种预测场景统一表述为长上下文生成问题 ...
推荐系统广泛使用隐式反馈,例如点击数据,因为其普遍可用性。虽然点击的存在在某种程度上表明了用户的偏好,但缺乏此类点击并不一定表明用户的负面反应,因为用户可能没有接触过该项目(正面未标记问题)。这导致很难从隐式反馈中预测用户的偏好 ...
将大型语言模型 (LLM) 集成到医疗诊断中需要系统框架来处理复杂的医疗场景,同时保持专业知识。我们提出了 KG4Diagnosis,一种新颖的分层多智能体框架,它将 LLM 与自动化知识图构建相结合,涵盖了跨医学专业的 362 种常见疾病。我们的框架通过两层架构反映了现实世界的医疗系统:全科医生(GP)代理进行初步评估和分类,与专业代理协调以在特定领域进行深入诊断 ...
通过学习从噪声到数据的随机过程,扩散模型(DM)已成为各个领域生成建模的主导范例。最近,扩散去噪桥模型(DDBM)是一种新的生成建模形式,它基于参考扩散过程在固定数据端点之间构建随机过程,在具有耦合数据分布的任务(例如图像到图像翻译)中取得了经验上的成功。然而,DDBM 的采样过程通常需要数百次网络评估才能获得良好的性能,这可能会由于高计算需求而阻碍其实际部署 ...
面对虚假相关性时,正确对模型性能进行基准测试的能力对于构建更好的预测变量和增强模型按预期运行的信心非常重要。我们证明,表征(而不是简单地量化)跨子组的模型错误对于正确反映模型偏差至关重要,而模型偏差会被最差组准确度或准确度差距等标准指标所忽略。受假设检验框架的启发,我们引入了 SkewSize,这是一种有原则且灵活的指标,可以捕获模型预测错误带来的偏差 ...
尽管在开发有效的电子商务模型方面付出了巨大的努力,但传统的电子商务模型在通用电子商务建模方面取得的成功有限,并且在新用户和新产品方面的表现不尽如人意,这是典型的域外泛化挑战。同时,大型语言模型(LLM)在许多领域的通才建模和域外泛化性方面表现出了出色的性能。为了充分释放它们对电子商务的力量,在本文中,我们构建了第一个开源、大规模、高质量的电子商务基准指令数据集ECInstruct ...