整体3D场景理解,共同建模几何形状,外观和语义,对于增强现实和机器人相互作用等应用至关重要。现有的前馈3D场景理解方法(例如 ...
0 0 0 2025/06/16 arXiv:2506.09565v2 陆三七
我们提出了ACDIT,这是一种新型的自动回归块条件扩散 Transformer ,它创新地结合了自回归和扩散范式,用于建模连续的视觉信息。通过引入一个宽阔的自动回归单元,ACDIT绕过了离散 Token 化的局限性在 Token 自动化和完整序列扩散之间提供了灵活的插值。每个块的生成作为条件扩散过程,以先前的块为条件 ...
0 0 0 2025/06/16 arXiv:2412.07720v2 xiewende
对域本体论和跨领域缺乏知识共享的过度依赖性是对话状态跟踪的两个实用但较少研究的问题。现有方法通常在推理过程中跟踪未知插槽值的情况通常很短,并且在适应新领域时通常会遇到困难。在本文中,我们提出了一个可转让的对话状态发生器(贸易),该对话者使用复制机制从话语中产生对话状态,从而在预测培训期间未遇到的(域,插槽,价值)时促进知识转移 ...
0 0 0 2025/06/16 arXiv:1905.08743v2 oriyiyi
构建VLM驱动的GUI代理的主要挑战之一是视觉接地,即,基于视觉内容和文本计划,将适当的屏幕区域定位以进行操作执行 ...
0 0 0 2025/06/16 arXiv:2506.03143v1 dqyzhwk
自回旋视频模型在创建交互式视频内容和支持任意持续时间的流媒体应用程序方面具有与双向扩散模型相比的不同优势。在这项工作中,我们介绍了下一框扩散(NFD),这是一种自回旋扩散 Transformer ,融合了构成障碍的因果关注,从而在每个框架内通过平行 Token 生成实现了迭代采样和有效的推断。尽管如此,实现实时视频生成仍然是此类模型仍然是一个重大挑战,这主要是由于与扩散抽样相关的高计算成本以及自动 ...
0 0 0 2025/06/16 arXiv:2506.01380v1 wonders
扩散语言模型(DLM)已成为文本生成建模的有希望的新范式,有可能解决自回归(AR)模型的局限性。但是,与AR同行相比,当前的DLM的规模较小,并且缺乏对语言建模基准测试的公平比较。此外,从头开始的训练扩散模型仍然具有挑战性 ...
0 0 0 2025/06/16 arXiv:2410.17891v3 wonders
基于文本的知识图完成方法利用了预先训练的语言模型(PLM)来增强使用详细的文本描述的原始三胞胎的内在语义连接。该分支中的典型方法分别映射输入查询(与实体和关系相关联的文本描述)及其候选实体分别为特征向量,然后最大化有效三元组的概率。这些方法正在获得有希望的表现,并越来越关注大型语言模型的快速发展 ...
0 0 0 2025/06/16 arXiv:2504.06129v2 spiritedge
我们提出了一种新型的策略梯度方法,用于多代理增强学习,该方法利用了两种不同的差异技术,并且不需要大量次数。具体而言,我们提出了一种基于动量的分散策略梯度跟踪(MDPGT),其中使用新的基于动量的方差减少技术来近似于当地策略梯度代理具有重要性采样,并且采用了一个中间参数来跟踪两个连续的策略梯度代孕。此外,事实证明,MDPGT可以达到$ \ Mathcal {O}(n^{ -  1} \ Epsilo ...
0 0 0 2025/06/16 arXiv:2112.02813v1 AZ1229

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)