社交网络已经成为人们生活中不可或缺的一部分。网络服务的激增以前所未有的规模进一步扩大了社交网络,为在线平台带来了不可估量的商业价值。近年来,团购(GB)商业模式盛行,在电子商务中也越来越流行 ...
自监督训练在预训练模型和促进语音识别(如多语言 ASR)的下游微调方面显示出了可喜的成果。大多数现有方法采用两阶段方案,其中在第一预训练阶段优化自监督损失,并在第二阶段恢复标准监督微调。在本文中,我们提出了一种端到端(E2E)联合无监督和监督训练(JUST)方法,将监督 RNN-T 损失与自监督对比和掩码语言模型(MLM)损失结合起来 ...
在本文中,我们介绍了Recognize Anything Plus模型(RAM++),这是一种有效利用多粒度文本监督的开放集图像标记模型。以前的方法(例如... ...
由大型语言模型支持的智能体在解决复杂任务方面表现出了卓越的能力。然而,大多数代理系统仍然是被动的,限制了它们在需要远见和自主决策的场景中的有效性。在本文中,我们解决了开发主动代理的挑战,该代理能够在没有明确的人类指令的情况下预测和启动任务 ...
事实证明,自我监督学习 (SSL) 对于推进自然语言处理 (NLP) 和计算机视觉 (CV) 的研究至关重要。该范例在大量未标记数据上预训练共享模型,并以最小的适应实现了各种任务的最先进(SOTA)。然而,语音处理社区缺乏类似的设置来系统地探索该范式 ...
3D高斯分布(3DGS)创建由3D高斯组成的辐射场来表示场景。由于视图稀疏,3DGS很容易出现过度,从而对渲染产生负面影响。本文介绍了一种用于改进稀疏视图3DGS的新共正则化视角... ...
由视觉语言模型 (VLM) 提供支持的图形用户界面 (GUI) 代理已经展示了类似人类的计算机控制能力。尽管它们在推进数字自动化方面很有用,但一个关键瓶颈仍然存在:收集高质量的轨迹数据进行训练。收集此类数据的常见做法依赖于人工监督或通过执行预定义任务生成合成数据,这些任务要么占用资源,要么无法保证数据质量 ...
图神经网络 (GNN) 的最新进展彻底改变了图结构数据建模,但传统的 GNN 却难以应对现实场景中普遍存在的复杂异构结构。尽管在处理异构交互方面取得了进展,但仍然存在两个基本挑战:噪声数据显着影响嵌入质量和学习性能,以及现有方法无法捕获异构关系之间复杂的语义转换,从而影响下游预测。为了解决这些基本问题,我们提出了异构图扩散模型(DiffGraph),这是一个引入创新的跨视图去噪策略的开创性框架 . ...