探索全景视频时预测人类扫描路径是一项具有挑战性的任务,这是由于球形几何形状和输入的多模式以及输出的固有不确定性和多样性。大多数以前的方法都无法对这些特征进行完整的处理,因此容易出现错误。在本文中,我们根据有损耗数据压缩的原则提出了一个简单的扫描预测标准 ...
0 0 0 2025/09/01 arXiv:2305.02536v3 Wy.
最近的进步强调了基于GRPO的增强学习方法和基准测试在增强文本形象(T2i)一代中的重要性。但是,使用点奖励模型(RM)进行评分的图像的当前方法容易奖励黑客。我们透露,当标准化后图像之间的分数差异被放大时,就会发生这种情况,从而创造出虚幻的优势,使模型驱动模型过度耗尽琐碎的收益,最终破坏了图像生成过程的稳定 ...
0 0 0 2025/09/01 arXiv:2508.20751v1 麦兜
近年来,从网络规模的数据集中学到的一般视觉表示取得了巨大的成功,从而使数据有效的机器人学习在操纵任务上。然而,这些预训练的表示主要属于2D图像,忽略了世界固有的3D性质。但是,由于大规模3D数据的稀缺性,仍然很难从Web数据集中提取通用3D表示。取而代之的是,我们正在寻求一个一般的视觉预训练框架,该框架可以改善所有3D表示形式 ...
0 0 0 2025/09/01 arXiv:2508.17230v1 orangelcx
文本图像超分辨率是一项独特而重要的任务,可以增强对人类文本图像的可读性。它被广泛用作场景文本识别中的预处理。但是,由于自然场景中的复杂降解,从低分辨率输入中恢复了高分辨率文本是模棱两可和具有挑战性的 ...
0 1 0 2025/09/01 arXiv:2210.06924v1 小丸子
由于其实际应用,音频驱动的人类动画引起了广泛的关注。但是,在产生具有一致外观和自然手动的高分辨率,长期视频中仍然存在着关键的挑战。现有方法使用重叠的运动框架扩展了视频,但会累积错误,导致身份漂移,颜色移位和场景不稳定性 ...
0 0 0 2025/09/01 arXiv:2508.20210v1 yanghedada
在大语模型(LLM)进步中,平衡性能和效率是一个核心挑战。 GPT-5通过测试时间路由解决此问题,在推理过程中将查询动态分配给有效或高容量模型。在这项工作中,我们提出了Avengers-Pro,这是一个测试时间路由框架,结合了各种能力和效率的LLM,为所有绩效效率折衷方案提供了统一的解决方案 ...
0 0 0 2025/09/01 arXiv:2508.12631v1 zengzhiyun
第六代(6G)无线网络和物联网(IoT)的快速扩展促进了从集中式云情报到分散的边缘一般智能的发展。但是,传统的边缘智能方法以静态模型和有限的认知自治为特征,无法解决新兴边缘网络固有的动态,异质和资源约束的方案。代理人人工智能(Agesic AI)作为一种变革性解决方案出现,使边缘系统能够自主感知多模式环境,理性在上下文上,并通过连续的感知反应循环积极地适应 ...
0 0 0 2025/09/01 arXiv:2508.18725v1 astonishe
边缘通用智能(EGI)代表边缘计算的变革性演变,其中分布式药物具有在不同的,动态的环境中自主性自主行动的能力。这个愿景的核心是世界模型,它们充当主动的内部模拟器,不仅可以预测,而且还可以积极地想象未来的轨迹,不确定性下的理性以及具有远见卓识的多步骤行动。这种积极主动的本质使代理商可以预测潜在的结果并在现实世界相互作用之前优化决策 ...
0 0 0 2025/09/01 arXiv:2508.09561v1 astonishe

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)