我们提出了一种基于离散潜在代码生成框架的大掩模多元图像修复方法。我们的方法通过仅在图像的可见位置执行计算来学习潜在先验,离散化为标记。这是通过一个限制性部分编码器来实现的,该编码器预测每个可见块的 Token 标签,一个双向变换器,仅通过查看这些 Token 来推断丢失的标签,以及一个专用合成网络,该网络将 Token 与部分图像先验耦合以生成相干的即使在极端的掩模设置下也能获得多元化的完整图像  ...
0 0 0 2024/04/29 arXiv:2403.18186v1 ycx962464
端到端 (E2E) 自动语音识别 (ASR) 模型的准确性随着规模的扩大而不断提高,有些模型现在已达到数十亿个参数。然而,这些模型的广泛部署和采用需要计算高效的解码策略。在目前的工作中,我们研究了一种这样的策略:在编码器中应用多个帧缩减层将编码器输出压缩为少量输出帧 ...
0 0 0 2024/04/29 arXiv:2402.17184v1 luffy
因果关系揭示了现实场景中数据分布背后的基本原理,大型语言模型 (LLM) 理解因果关系的能力直接影响其在解释输出、适应新证据和生成反事实方面的功效。随着 LLM 的激增,对这种能力的评估越来越受到关注。然而,由于缺乏全面的基准,现有的评估研究变得简单、单一和同质化 ...
0 0 0 2024/04/29 arXiv:2404.06349v1 QuinnYao
尽管神经辐射场 (NeRF) 在物体和小空间有限区域上展示了令人印象深刻的视图合成结果,但它们在“无界”场景中表现不佳,在“无界”场景中,相机可能指向任何方向,内容可能存在于任何距离。在这种情况下,现有的类似 NeRF 的模型通常会产生模糊或低分辨率的渲染(由于附近和远处物体的细节和比例不平衡),训练速度很慢,并且由于任务的固有模糊性可能会出现伪影。从一小组图像重建大场景。我们提出了 mip-Ne ...
0 0 0 2024/04/29 arXiv:2111.12077v3 sswwpplyy
在本技术报告中,我们介绍了名为 UniOCC 的解决方案,用于 CVPR 2023 的 nuScenes 开放数据集挑战赛中以视觉为中心的 3D 占用预测赛道。现有的占用预测方法主要侧重于使用 3D 占用优化 3D 体积空间上的投影特征标签。然而,这些标签的生成过程复杂且昂贵(依赖于3D语义注释),并且受体素分辨率的限制,它们无法提供细粒度的空间语义 ...
0 0 1 2024/04/29 arXiv:2306.09117v1 sswwpplyy
3D高斯泼溅(3DGS)的出现最近给神经渲染领域带来了一场革命,促进了实时速度的高质量渲染。然而,3DGS 在很大程度上依赖于运动结构 (SfM) 技术生成的初始化点云。当处理不可避免地包含无纹理表面的大型场景时,SfM 技术总是无法在这些表面中产生足够的点,并且无法为 3DGS 提供良好的初始化 ...
0 0 0 2024/04/29 arXiv:2402.14650v1 happy
Vaswani 等人(2017)提出的 Transformer 完全依靠注意力机制,在机器翻译方面取得了最先进的结果。与循环神经网络和卷积神经网络相比,它在其结构中没有明确地建模相对或绝对位置信息 ...
0 0 0 2024/04/29 arXiv:1803.02155v2 Cane_Wu
层归一化 (LayerNorm) 是所有基于 Transformer 的模型中的固有组件。在本文中,我们证明了 LayerNorm 对于其后面的多头注意力层的表达能力至关重要。这与人们普遍认为的 LayerNorm 的唯一作用是标准化前向传播过程中的激活以及后向传播过程中的梯度不同 ...
0 0 0 2024/04/29 arXiv:2305.02582v2 Cane_Wu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)