图表示学习近年来一直是一个非常活跃的研究领域。图表示学习的目标是生成能够准确捕获大型图的结构和特征的图表示向量。这一点尤其重要,因为图表示向量的质量将影响这些向量在节点分类、链路预测和异常检测等下游任务中的性能 ...
本文介绍了一种称为逐句语音摘要(Sen-SSum)的新颖方法,该方法以逐句的方式从语音文档生成文本摘要。 Sen-SSum 将自动语音识别 (ASR) 的实时处理与语音摘要的简洁性相结合。为了探索这种方法,我们提供了 Sen-SSum 的两个数据集:Mega-SSum 和 CSJ-SSum ...
在本文中,我们通过信息扩散模型研究电网的级联故障。与在线社交网络中谣言或影响力的传播类似,据观察,电网故障(停电)可以在病毒传播机制的驱动下进行传染性传播。我们采用马尔可夫(无记忆)和局部(一个节点的激活,i. ...
Sora 揭示了缩放 Diffusion Transformer 的潜力,可以以任意分辨率、长宽比和持续时间生成逼真的图像和视频,但它仍然缺乏足够的实现细节。在本技术报告中,我们介绍了 Lumina-T2X 系列 - 一系列配备零初始化注意力的基于流的大型扩散 Transformer (Flag-DiT),作为一个统一的框架,旨在将噪声转换为图像、视频、多视图3D 对象和以文本指令为条件的音频剪辑 ...
尽管努力扩展大型语言模型(LLM)的知识,但鉴于知识不断发展的性质,知识差距(LLM 中缺失或过时的信息)可能始终存在。在这项工作中,我们研究了识别 LLM 知识差距的方法,并在存在知识差距时避免回答问题。我们首先通过微调/提示来调整现有方法来进行模型校准或适应,并分析它们避免生成低置信度输出的能力 ...
现有的学习时间序列表示的方法保持时间步长的时间排列完整,并假设原始顺序是最适合学习的。然而,现实世界时间序列的不相邻部分可能具有很强的依赖性。因此,我们提出了一个问题:是否有一种时间序列的替代安排可以实现更有效的表示学习?为了解决这个问题,我们提出了一种简单的即插即用机制,称为 Segment、Shuffle 和 Stitch (S3),旨在改进现有模型的时间序列表示学习 ...
我们引入了密集视觉变换器,这是一种利用视觉变换器代替卷积网络作为密集预测任务骨干的架构。我们将视觉转换器各个阶段的标记组装成各种分辨率的类似图像的表示,并使用卷积解码器逐步将它们组合成全分辨率预测。 Transformer 主干以恒定且相对较高的分辨率处理表示,并且在每个阶段都具有全局感受野 ...
由于数学表达式的结构复杂且符号多样,公式识别面临重大挑战。尽管公式识别模型不断进步,但这些模型采用的评估指标(例如 BLEU 和编辑距离)仍然表现出明显的局限性。他们忽视了同一个公式具有不同的表示形式,并且对训练数据的分布高度敏感,从而导致公式识别评估的不公平性 ...