arxiv LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion

名称
LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion
首页
https://yiyibooks.cn/arxiv/2507.02813v1/index.html
原始地址
https://arxiv.org/abs/2507.02813
描述
从2D图像中恢复具有开放式视频场景的理解的3D结构是一项基本但艰巨的任务。最近的发展通过使用嵌入式语言信息进行人均优化实现了这一目标。但是,他们在很大程度上依赖于校准的密集视图重建范式,从而在有限的视图中遇到严重的渲染文物和令人难以置信的语义综合 ...