边是描述 3D 结构信息的最基本的参数化基元之一。在本文中,我们研究了校准多视图图像的参数化 3D 边缘重建。以前的方法通常从多视图2D边缘图像重建3D边缘点集,然后将3D边缘拟合到点集。然而,点集中的噪声可能会导致拟合边缘之间出现间隙,并且恢复的边缘可能与输入多视图图像不对齐,因为边缘拟合仅取决于重建的 3D 点集。为了缓解这些问题,我们提出了 SketchSplat,一种通过可微分的多视图草图泼溅来重建准确、完整和紧凑的 3D 边缘的方法。我们将 3D 边缘表示为草图,这些草图是由控制点、比例和不透明度等属性定义的参数线和曲线。在重建过程中,我们从一组草图中迭代地采样高斯点,并将高斯点光栅化到 2D 边缘图像上。然后可以反向传播图像损失的梯度来优化草图属性。我们的方法以可微分的方式桥接 2D 边缘图像和 3D 边缘,这确保 3D 边缘与 2D 图像很好地对齐,并产生准确和完整的结果。我们还提出了一系列自适应拓扑操作来减少冗余边缘并将其与草图优化一起应用,从而产生更紧凑的重建。最后,我们贡献了一个精确的 2D 边缘检测器,它提高了我们的方法和现有方法的性能。实验表明,我们的方法在基准 CAD 数据集上实现了最先进的准确性、完整性和紧凑性 ...
检索增强生成 (RAG) 已成为解决大型语言模型 (LLM) 生成的响应中的幻觉问题的一项有前途的技术。现有的 RAG 研究主要集中在应用基于语义的方法来检索孤立的相关块,而忽略了它们的内在关系。在本文中,我们提出了一种新颖的知识图引导检索增强生成(KG$^2$RAG)框架,该框架利用知识图(KG)提供块之间的事实级关系,从而提高检索结果的多样性和一致性。具体来说,在执行基于语义的检索以提供种子块之后,KG$^2$RAG 采用 KG 引导的块扩展过程和基于 KG 的块组织过程,在组织良好的段落中提供相关且重要的知识。对 HotpotQA 数据集及其变体进行的大量实验证明,与现有基于 RAG 的方法相比,KG$^2$RAG 在响应质量和检索质量方面都具有优势 ...
我们提出了 Mesh4D,一种用于单目 4D 网格重建的前馈模型。给定动态对象的单眼视频,我们的模型会重建对象的完整 3D 形状和运动,表示为变形场。我们的主要贡献是一个紧凑的潜在空间,它可以在一次传递中对整个动画序列进行编码。这个潜在空间是由自动编码器学习的,在训练过程中,自动编码器由训练对象的骨骼结构引导,为合理的变形提供强大的先验。至关重要的是,推理时不需要骨架信息。编码器采用时空注意力,产生对象整体变形的更稳定的表示。在此表示的基础上,我们训练了一个潜在扩散模型,该模型以输入视频和从第一帧重建的网格为条件,预测一个镜头中的完整动画。我们在重建和新颖的视图合成基准上评估了 Mesh4D,在恢复准确的 3D 形状和变形方面优于现有方法 ...
稀疏专家混合 (SMoE) 通过有选择地激活专家子集来执行条件计算,从而实现大型语言模型 (LLM) 中可扩展的参数增长。但扩展后的参数规模超出了单台设备的内存容量,需要分布式部署进行推理。这种设置引入了两个关键挑战:(1) 通信问题:将功能传输到具有激活专家的设备会导致大量的通信开销。 (2) 计算负载问题:倾斜的专家激活会使某些 GPU 过载,导致设备之间的负载不平衡。其中,通信开销被认为是 SMoE 推理的主要瓶颈。然而,减少设备之间的通信可能会加剧计算负载不平衡,导致设备空闲和资源浪费。因此,我们提出了 GRACE-MoE,它是用于 SMoE 推理的具有局部感知路由的分组和复制的缩写。 GRACE-MoE 是一个协同优化框架,可以共同减少通信开销并缓解计算负载不平衡。具体来说,该框架包括两个关键阶段:(1)分组和复制:该阶段根据专家的亲和力进行分组,以减少跨设备通信。此外,还应用动态复制来解决负载偏差,改善 GPU 之间的计算负载平衡。 (2) 路由:此阶段采用具有负载预测功能的局部感知路由策略。它优先考虑本地副本以最大限度地减少通信开销,并在必要时平衡远程副本之间的请求。在不同模型和多节点、多 GPU 环境上进行的实验表明,GRACE-MoE 有效降低了端到端推理延迟,与最先进的系统相比,速度提高了 3.79 倍。 GRACE-MoE 代码将在接受后发布 ...
3D语义分割对于理解3D场景起着基础和关键的作用。虽然当代最先进的技术主要集中于提高基于通用指标(例如 mIoU、mAcc 和 oAcc)的 3D 语义分割的整体性能,但不幸的是,它们大多忽略了对分割具有挑战性的区域的探索。在本文中,我们通过更精细的视角重新审视 3D 语义分割,揭示通常被更广泛的性能指标所掩盖的微妙复杂性。具体来说,我们将 3D 语义分割错误分为四个综合类别,以及针对每个类别量身定制的相应评估指标。在此分类框架的基础上,我们引入了一种名为 BFANet 的创新 3D 语义分割网络,它结合了语义边界特征的详细分析。首先,我们设计了边界语义模块,将点云特征解耦为语义特征和边界特征,并融合它们的查询队列以通过注意力增强语义特征。其次,我们引入了一种更简洁、更加速的边界伪标签计算算法,其速度比最先进的算法快3.9倍,提供与数据增强的兼容性,并在训练中实现高效计算。对基准数据的大量实验表明了我们的 BFANet 模型的优越性,证实了强调四个独特设计指标的重要性。代码可从此 https URL 获取 ...
在实体智能系统中,一个关键组成部分是 3D 感知算法,它使智能体能够了解周围的环境。以前的算法主要依赖于点云,尽管提供了精确的几何信息,但由于固有的稀疏性、噪声和数据稀缺性,仍然限制了感知性能。在这项工作中,我们引入了一种新颖的以图像为中心的 3D 感知模型 BIP3D,它利用具有显式 3D 位置编码的表达图像特征来克服以点为中心的方法的局限性。具体来说,我们利用预先训练的 2D 视觉基础模型来增强语义理解,并引入空间增强器模块来提高空间理解。这些模块共同使 BIP3D 能够实现多视图、多模态特征融合和端到端 3D 感知。在我们的实验中,BIP3D 在 EmbodiedScan 基准测试中的表现优于当前最先进的结果,在 3D 检测任务中实现了 5.69% 的改进,在 3D 视觉基础任务中实现了 15.25% 的改进 ...
红外小目标检测(ISTD)在预警、救援和制导方面有着广泛的应用。然而,基于CNN的深度学习方法在分割红外小目标(IRST)方面效果不佳,因为它缺乏清晰的轮廓和纹理特征,而基于Transformer的方法由于缺乏卷积归纳偏差也难以取得显着的结果。为了解决这些问题,我们提出了一种称为双线性相关注意力(ABC)的新模型,该模型基于 Transformer 架构,并包含一个卷积线性融合 Transformer (CLFT)模块,该模块具有用于特征提取和融合的新颖注意力机制,可有效增强目标特征并抑制噪声。此外,我们的模型还包括位于网络较深层的 U 形卷积扩张卷积(UCDC)模块,它利用较深层特征的较小分辨率来获取更精细的语义信息。公共数据集上的实验结果表明,我们的方法实现了最先进的性能。代码可在此 https URL 获取 ...
在生成AI领域,生成与用户指定身份相匹配的高保真人类视频既重要却又具有挑战性。现有方法通常依赖于过多的培训参数,并且与其他AIGC工具缺乏兼容性。在本文中,我们提出了Stand-In,这是一个轻巧和插件的框架,用于视频生成中的身份保存 ...
检索增强大型语言模型 (LLM) 将外部知识库中的非参数知识纳入 LLM,已成为提高问答 (QA) 等多项任务响应准确性的有前途的方法。然而,尽管有多种方法可以处理不同复杂度的查询,但它们要么处理具有不必要的计算开销的简单查询,要么无法充分解决复杂的多步骤查询;然而,并非所有用户请求都只属于简单或复杂类别之一。在这项工作中,我们提出了一种新颖的自适应 QA 框架,它可以根据查询复杂性从最简单到最复杂的策略动态选择最适合(检索增强)LLM 的策略。此外,这个选择过程是通过分类器来操作的,分类器是一个较小的 LM,经过训练,可以使用自动收集的标签来预测传入查询的复杂性级别,这些标签是从模型的实际预测结果和数据集中固有的归纳偏差获得的。这种方法提供了一种平衡的策略,在迭代和单步检索增强的 LLM 以及无检索方法之间无缝适应,以响应一系列查询复杂性。我们在一组开放域 QA 数据集上验证了我们的模型,涵盖多种查询复杂性,并表明与包括自适应检索方法在内的相关基线相比,我们的模型提高了 QA 系统的整体效率和准确性。代码可在以下位置获得:此 https URL ...
我们介绍了腾讯的广告推荐系统,并研究了学习适当的推荐表示的挑战和实践。我们的研究首先展示了在将不同类型的特征编码到嵌入表示中时保留先验知识的方法。我们特别关注序列特征、数字特征和预训练的嵌入特征。随后,我们深入研究与特征表示相关的两个关键挑战:嵌入的维度崩溃和不同任务或场景之间的兴趣纠缠。我们提出了几种实用的方法来应对这些挑战,从而产生强大且清晰的推荐表示。然后,我们探索几种训练技术来促进模型优化、减少偏差并增强探索。此外,我们还引入了三种分析工具,使我们能够研究特征相关性、维度崩溃和利益纠缠。这项工作建立在腾讯广告推荐团队过去十年的不断努力之上。它总结了一般设计原则,并提出了一系列易于应用的解决方案和分析工具。报告的业绩基于我们的在线广告平台,该平台每天处理数千亿个请求,并向数十亿用户提供数百万个广告 ...