知识图(kgs)在人工智能领域至关重要,并广泛应用于下游任务,例如增强问答(QA)系统。 KGS的建设通常需要域专家的巨大努力。最近,大型语言模型(LLM)已用于知识图构造(KGC),但是,大多数现有方法都集中在本地视角上,从而从单个句子或文档中提取知识三重态 ...
在现实场景中,从信息检索(IR)系统获得的大多数数据都是非结构化的。将自然语言句子转换为结构化知识图(KG)仍然是一个严峻的挑战。构建的知识图谱的质量也可能会影响一些依赖于知识图谱的领域(例如 GraphRAG 系统和推荐系统)的性能 ...
去核扩散概率模型已在点云的产生中取得了重大成功,从而实现了许多下游应用,例如生成数据增强和3D模型编辑。但是,很少关注具有点细分标签的点云,以及为此任务开发评估指标。因此,在本文中,我们提出了一种新型扩散模型,旨在产生具有细粒度分割标签的高质量和不同的点云 ...
准确的作用推断对于基于视觉的机器人操作至关重要。现有的方法通常遵循视觉行动(V-A)范式,直接从视觉输入中预测动作,或者愿景到3D-TO-TO-TO-TO-ECTION(V-3D-A)范式,利用中间3D表示。但是,由于操纵场景的复杂性和动态性质,这些方法通常在行动不准确的情况下困难 ...
最近的研究已研究到语音增强(SE)方法,这些方法利用了预训练模型的音频嵌入,与时间频率掩盖或信号预测技术有所不同。本文介绍了一种有效且可扩展的SE方法。我们的方法涉及最初使用预训练的AudioEncoder从嘈杂的语音中提取音频嵌入,然后通过紧凑的编码网络将其分解 ...
数字恐怖主义是确保患者/医疗保健提供者数据和信息的主要原因。可能会影响患者健康甚至国家安全的敏感主题包括患者健康记录和有关医疗保健提供者的信息。许多常规攻击以及配备了无线传感器网络(WSN)的本地和远程服务器不断违反健康数据库和数据集 ...
我们提出了可扩展插值 Transformer (SiT),这是一个建立在扩散 Transformer (DiT) 基础上的生成模型系列。插值框架允许以比标准扩散模型更灵活的方式连接两个分布,使得对影响基于动态传输的生成模型的各种设计选择进行模块化研究成为可能:使用离散与连续时间学习,决定目标模型进行学习,选择连接分布的插值,并部署确定性或随机采样器 ...
对比语言音频预处理(拍手)是一种弥合音频和文本域之间差距的广泛使用方法。当前的拍手方法可以用英语进行声音和音乐检索,而忽略了多语言口语内容。为了解决这个问题,我们介绍了通用语言音频预处理(GLAP),该音频预处理(GLAP)通过多语言和多域功能扩展拍手 ...