我们介绍了$ \ pi^3 $,这是一种馈送前向神经网络,为视觉几何重建提供了一种新颖的方法,破坏了对常规固定参考视图的依赖。先前的方法通常将其重建锚定在指定的观点上,该观点是电感偏差,如果参考是次优的,可能导致不稳定和失败。相比之下,$ \ pi^3 $采用完全排列的等值架构来预测现代相机的姿势和规模不变的本地点映射,而无需任何参考帧 ...
0 0 0 2025/09/18 arXiv:2507.13347v2 xubiao
大型语言模型(LLM)在一般质量检查中表现良好,但在特定于领域的情况下通常会挣扎。检索增强的一代(RAG)引入了外部知识,但由于嘈杂的检索而造成了幻觉和潜伏期。继续仔细预测会内化域知识,但昂贵,缺乏跨域的灵活性 ...
0 0 0 2025/09/18 arXiv:2508.15213v1 snowpigppp
大规模训练范式的成功,以大语言模型(LLM)为例,激发了时间序列基础模型(TSFM)的发展。但是,它们在财务烛台(K-Line)数据中的应用仍然有限,通常不太受培训的体系结构。此外,现有的TSFM通常忽略了关键的下游任务,例如波动性预测和合成数据的生成 ...
0 0 0 2025/09/18 arXiv:2508.02739v1 18165929621
我们提出了一个灵活而动态的框架,它提出了llm-interleaved(llm-i),它将交织的图像文本生成重新构造为工具使用问题。 LLM-I旨在克服当前统一模型的“单芯”瓶颈,这些模型仅限于合成图像和与需要事实接地或程序化精度的任务斗争。我们的框架授权中央LLM或MLLM代理商智能协调一个专门的视觉工具的各种工具包,包括在线图像搜索,基于扩散的生成,代码执行和图像编辑 ...
0 0 0 2025/09/18 arXiv:2509.13642v1 麦兜
我们介绍了Sail-VL2,这是一种开放式视觉语言基础模型(LVM),用于全面的多模式理解和推理。作为Sail-VL的继任者,Sail-VL2在不同图像和视频基准的2B和8B参数尺度上实现了最先进的性能,这表明从细粒度的感知到复杂的推理,都表明了强大的能力。三项核心创新推动了其有效性 ...
0 0 0 2025/09/18 arXiv:2509.14033v1 麦兜
多任务视觉接地(MTVG)包括两个子任务,即引用表达理解(REC)和参考表达分割(RES) ...
0 0 0 2025/09/18 arXiv:2504.16145v2 chengwenxuan7
本文介绍了PCDREAMER,这是一种用于点云完成的新方法。传统方法通常从部分点云中提取特征以预测缺失区域,但是较大的解决方案空间通常会导致结果不令人满意。最新的方法已经开始使用图像作为额外的指导,有效地提高了性能,但是在实践中获得图像和部分点云的配对数据和部分点云是具有挑战性的 ...
0 0 0 2025/09/18 arXiv:2411.19036v3 wonglliam
在本文中,我们为3D点云提供了一个端到端的无监督异常检测框架。据我们所知,这是第一项解决以3D点云代表的一般对象上的异常检测任务的工作。我们提出了一个基于3D点云的无监督异常检测网络的深度变异自动编码器,专门针对3D点云的异常得分 ...
0 0 0 2025/09/18 arXiv:2304.03420v1 ggggggsm

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)