音频驱动的肖像画动画的最新进展表现出了令人印象深刻的功能。但是,现有的方法难以与多个维度的细粒度人类偏好保持一致,例如运动自然性,唇部同步准确性和视觉质量。这是由于难以在竞争偏好目标之间优化的,这些目标经常相互冲突,以及具有多维偏好注释的大规模高质量数据集的稀缺性 ...
0 0 0 2025/08/29 arXiv:2508.11255v1 yanghedada
尽管存在各种视觉定位方法,例如场景坐标回归和摄像头姿势回归,但这些方法通常在优化的复杂性或有限的准确性方面困难。为了应对这些挑战,我们探讨了新型视图合成技术的使用,尤其是3D高斯碎片(3DGS),这可以使3D几何和场景外观的紧凑编码具有紧凑的编码。我们提出了一个两阶段的过程,该过程将轻量级XFEAT功能提取器中的密集且稳健的关键点描述符集成到3DG中,从而增强了室内和室外环境中的性能 ...
0 0 0 2025/08/29 arXiv:2409.16502v3 zhifeiji
LLM服务系统通常将用户提示视为整体输入,从而通过解码技巧或疑问间批处理来优化推论。但是,许多实际提示包含潜在的语义平行性 - 可解释的结构,可以独立执行子任务以减少延迟,同时保留含义。我们介绍了ParallelPrompt,这是在自然用户提示中测量Query Paralleleisl的第一个基准 ...
0 0 0 2025/08/29 arXiv:2506.18728v2 ktka_kaka_ka
我们介绍了一种基于扩散的新型视频生成方法,生成一个视频,显示了来自用户的多个单独句子的多个事件。我们的方法不需要大规模的视频数据集,因为我们的方法使用基于预先训练的扩散的文本对视频生成模型而没有微调过程。具体而言,我们提出了最后一个框架感知的扩散过程,以保持连续视频之间的视觉连贯性,其中每个视频由不同的事件组成,通过初始化潜在和同时调节潜在噪声以增强生成视频中的运动动态 ...
0 0 0 2025/08/29 arXiv:2312.04086v2 smallz
开发强大且通用的机器人操纵策略是机器人领域的一个关键目标。为了实现有效的泛化,必须构建包含大量演示轨迹和不同任务的综合数据集。与可以从互联网收集的视觉或语言数据不同,机器人数据集需要详细的观察和操作操作,需要对硬件软件基础设施和人力进行大量投资 ...
0 0 0 2025/08/29 arXiv:2412.13877v3 wungsui
视觉编码器是视觉模型(VLM)中的基本组成部分,每个组件都展示了从各种预训练的视觉基础模型中得出的独特优势。为了利用这些编码器的各种功能,最近的研究将多个编码器包含在单个VLM中,从而导致计算成本大幅增加。在本文中,我们介绍了视觉编码器知识蒸馏(Move-KD)的混合物,这是一个新颖的框架,将多个视觉编码器的独特熟练关系提炼成单个高效的编码器模型 ...
0 1 0 2025/08/29 arXiv:2501.01709v3 WWW1007
我们提出LIDAR-GS,这是一种高斯脱衣(GS)方法,用于实时,高保真地重新仿真对LIDAR扫描中的LIDAR扫描。针对相机提出的GS方法最近在神经辐射场(NERF)之外的实时渲染方面取得了重大进步。但是,将GS表示形式应用于一种活跃的3D传感器类型Lidar,提出了几个挑战,必须解决这些挑战,以保持高精度和独特的特征 ...
0 0 0 2025/08/29 arXiv:2410.05111v2 wzq_v2
最近的主流掩盖蒸馏方法通过从其教师对应物的特征图中重建学生网络的选择性掩盖区域来起作用。在这些方法中,需要正确选择蒙版区域,以便重建的功能编码足够的歧视和表示能力,例如教师功能。但是,以前的掩盖蒸馏方法仅着眼于空间掩盖,从而使所得的掩蔽区域偏向于空间重要性,而无需编码信息通道线索 ...
0 0 0 2025/08/29 arXiv:2309.02719v2 WWW1007

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)