从稀疏视图中重建照片现实的场景,在实践中极高地需要未校准的图像。尽管已经取得了一些成功,但现有方法要么是稀疏视图,但需要准确的相机参数(即 ...

0 0 0 0 2025/08/01 arXiv:2412.19518v1 wonglliam

虽然基于稀疏图像集的新视图合成(NVS)在3D计算机视觉领域取得了显着的进步,但它依赖于使用运动结构(SfM)对参数参数进行精确的最终估计。例如,最近开发的高斯溅射在高度依赖于 SfM 导出的点和位姿的准确性。然而,SfM 过程非常运行,并且在匹配特征稀缺的稀疏视图场景中通常不可靠,导致累积错误和跨数据集的泛化能力有限... ...

0 0 0 0 2025/08/01 arXiv:2403.20309v6 wonglliam

4D视频控制在视频生成中至关重要,因为它可以使用复杂的镜头技术,例如多相机拍摄和Dolly Zoom,这些镜头目前不受现有方法的支持。直接培训视频扩散 Transformer (DIT)以控制4D内容需要昂贵的多视频视频。受单眼动态新型视图合成(MDV)的启发,该视图(MDVS)优化了4D表示并根据不同的4D元素(例如相机姿势和对象运动编辑)渲染视频,我们将伪4D高斯字段带到视频生成 ...

0 0 0 0 2025/08/01 arXiv:2501.02690v1 小小卡拉米

文本到视频(T2V)模型在生成多种视频方面表现出了显着的功能。但是,由于(i)文字在表达特定样式方面的固有笨拙以及(ii)普遍退化的样式保真度,他们很难制作用户呈现的风格化视频。为了应对这些挑战,我们介绍了StyleCrafter,这是一种通用方法,可通过风格控制适配器增强预训练的T2V模型,从而通过提供参考图像来以任何样式的视频生成 ...

0 0 0 0 2025/08/01 arXiv:2312.00330v2 Abidalswark

有效,准确的运动预测对于确保自主驾驶中的安全性和明智的决策至关重要,尤其是在需要多模式预测的动态现实世界中。我们介绍了Trajflow,这是一种基于流动匹配的新型运动预测框架,该框架解决了现有生成轨迹预测方法的可扩展性和效率挑战。与采用i的常规生成方法不同 ...

0 0 0 0 2025/08/01 arXiv:2506.08541v2 zhlstone

Scientific innovation is undergoing a paradigm shift driven by the rapid advancement of Large Language Models (LLMs). As science faces mounting challenges including information overload, disciplinary silos, and diminishing returns on conventional research methods, LLMs are emerging as powerful agents capable not only of enhancing scientific workflows but also of participating in and potentially leading the innovation process. Existing surveys mainly focus on different perspectives, phrases, and tasks in scientific research and discovery, while they have limitations in understanding the transformative potential and role differentiation of LLM.

0 0 0 0 2025/08/01 arXiv:2507.11810v1 kkkk

科学研究以传统方法面临高昂的成本和低效率,但是深度学习和大型语言模型(LLMS)的兴起提供了创新的解决方案。这项调查回顾了基于 Transformer 的LLM应用,例如生物学,医学,化学和气象学,强调了它们在进行研究中的作用。但是,模型尺寸的持续扩展导致了大量的记忆需求,阻碍了LLM的进一步发展和应用科学的应用 ...

0 0 0 0 2025/08/01 arXiv:2501.11847v2 kkkk

图异常检测(GAD)旨在识别异常图实例(节点、边、子图或图),由于其在广泛应用中的重要性,近年来引起了越来越多的关注。深度学习方法,特别是图神经网络(GNN),由于其捕获图数据中复杂结构和/或节点属性的强大能力,已成为 GAD 的一个有前途的范例。考虑到针对基于 GNN 的 GAD 提出了大量方法,总结现有 GAD 研究中的方法和发现至关重要,以便我们能够找到解决开放式 GAD 问题的有效模型设计 ...

0 0 0 0 2025/08/01 arXiv:2409.09957v2 wozengyi

随着大型推理模型在复杂的编码和推理任务中的重大进展,现有基准(例如LiveCodeBench和Codeelo)不足以评估实际竞争环境中大语言模型(LLMS)的编码功能。此外,当前的评估指标,例如Pass@k,无法捕获推理模型的反思能力。为了应对这些挑战,我们建议\ textbf {icpc-eval},这是一种旨在探测LLM推理边界的顶级竞争编码基准 ...

0 0 0 0 2025/08/01 arXiv:2506.04894v1 Midoria7

统一视觉模型(VLM)最近显示出了显着的进步,使一个模型可以通过共享计算体系结构中的不同指令灵活地解决各种任务。这种基于指令的控制机制会带来独特的安全挑战,因为对抗性输入必须在多个任务指令中保持有效,这些指令可能无法预测地应用于处理相同的恶意内容。在本文中,我们介绍了CrossVlad,这是一种新的基准数据集,该数据集经过MSCOCO的精心策划,并使用GPT-4辅助注释进行系统地评估对统一VLMS的交叉任务对抗攻击 ...

0 0 0 0 2025/08/01 arXiv:2507.07709v1 linkgeigei

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)