结构指导的图像完成旨在根据用户的输入指南图对图像的局部区域进行分配。尽管这样的任务可以用于交互式编辑的许多实际应用,但现有的方法通常难以在复杂的自然场景中幻觉现实的对象实例。这种限制部分是由于孔区域内缺乏语义级别的约束以及缺乏实施现实对象产生的机制 ...
现代3D语义实例分割方法主要依赖于专业的投票机制,然后是精心设计的几何聚类技术。在基于最近基于 Transformer 的对象检测和图像分割的方法的成功的基础上,我们提出了第一个基于 Transformer 的3D语义实例分割的方法。我们表明,我们可以利用通用 Transformer 构建块直接从3D点云中预测实例掩码 ...
基于扰动的正则化技术应对工业规模的大型模型,尤其是稀疏标签的许多挑战,并强调模型预测中扰动的一致性和不变性。流行的正则化技术之一是自遇到的各种形式,其中涉及对输入数据进行小的修改,同时保留上下文信息并通过辅助损失函数来实施相似的预测。在这项工作中,我们探讨了基于扰动的正则化算法在大规模广告排名模型中的首次成功应用,并进一步提出了一种新型的正则化算法,即损失均衡的小扰动正则(LSPR)可以用于潜在的 ...
我们引入了 Matcha-TTS,这是一种用于快速 TTS 声学建模的新编码器-解码器架构,使用最佳传输条件流匹配 (OT-CFM) 进行训练。与使用分数匹配训练的模型相比,这产生了基于 ODE 的解码器,能够以更少的合成步骤实现高输出质量。仔细的设计选择还确保每个合成步骤都能快速运行 ...
基于增强学习的推荐系统(基于RL的RS)旨在通过向多步决策任务投入建议,从一批收集的数据中学习良好的政策。但是,当前基于RL的RS研究通常具有较大的现实差距。在本文中,我们介绍了第一个开源现实世界数据集RL4RS,希望替换人工数据集和半模拟的RS数据集,因为基于RL的RS RS域的资源限制,使用了先前使用的研究 ...
作为预先操纵的基础,至关重要的是,使机器人能够像人类一样坚强地掌握。我们先天的抓握系统是迅速,准确,灵活的,并且在空间和时间域之间连续。现有方法涵盖了所有这些用于机器人抓握的属性 ...
人们广泛采用感知增强的预训练,特别是通过接地技术,以增强图形用户界面(GUI)代理的性能。但是,在资源约束的情况下,面向坐标的接地和面向动作的推理之间的格式差异限制了基础对推理任务的有效性。为了应对这一挑战,我们提出了一种名为“查询推理”的面向查询的枢轴方法,该方法是GUI接地和推理之间的桥梁 ...
POI表示学习在处理与用户移动性数据相关的任务中起着至关重要的作用。最近的研究表明,通过多模式信息丰富POI表示可以显着提高其任务绩效。以前,包含在POI表示形式中的文本信息通常仅涉及POI类别或登机内容,从而导致现有方法中的文本特征相对较弱 ...