一译 —— 文档和论文翻译、对照阅读、讨论和社区

MyTimeMachine: Personalized Facial Age Transformation

面部衰老是一个复杂的过程，高度依赖于性别，种族，生活方式等多种因素，因此在准确预测任何个人的老化之前，学习全球衰老的人非常具有挑战性。现有的技术通常会产生现实且合理的老化结果，但是重生的图像通常与该人在目标时代的外观不像，因此需要个性化 ...

0 0 0 2025/09/26 arXiv:2411.14521v2 dourcer

RoPETR: Improving Temporal Camera-Only 3D Detection by Integrating Enhanced Rotary Position Embedding

该技术报告引入了针对StreamPetr框架的有针对性改进，专门旨在增强速度估计，这是影响整体Nuscenes检测评分的关键因素。尽管在Nuscenes数据集上评估时，虽然流媒体表现出强大的3D边界检测性能，但其高平均精度反映出我们的分析将速度估计确定为实质性瓶颈。为了克服这一限制，我们提出了一种定制的定制位置嵌入策略，以增强时间建模功能 ...

0 0 0 2025/09/26 arXiv:2504.12643v3 313563

Adapting to Fragmented and Evolving Data: A Fisher Information Perspective

在动态环境中运行的现代机器学习系统通常会面对\ textit {顺序协方差}（SCS），其中输入分布会随着时间的流逝而发展，而条件分布保持稳定。我们介绍了淡出（基于Fisher的动态环境的改编），这是一个轻巧且理论上扎根的框架，可在SCS下进行健壮的学习。 Fade采用了固定在Fisher信息几何形状中的换档正规化机制，通过根据灵敏度和稳定性调节参数更新来指导适应 ...

0 0 0 2025/09/26 arXiv:2507.18996v1 boboshen

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

我们提出了 MOFA-Video，一种先进的可控图像动画方法，它使用各种附加可控信号（例如人类地标参考、手动轨迹和另一个甚至提供的视频）或其组合从给定图像生成视频。这与以前的方法不同，以前的方法只能在特定的运动域上工作，或者在扩散先验的情况下表现出较弱的控制能力。为了实现我们的目标，我们设计了几个领域感知运动场适配器（即 MOFA 适配器）来控制视频生成管道中生成的运动 ...

0 0 0 2025/09/26 arXiv:2405.20222v3 cocopink

Phoenix-VAD: Streaming Semantic Endpoint Detection for Full-Duplex Speech Interaction

口语对话模型具有明显高级的智能人\ TextEndandash计算机交互，但是它们缺乏插件\ TextendEndash，\ TextEndAsh播放完整\ TextEndEndash Duplex预测模块，用于语义端点检测，阻碍无缝的音频交互。在本文中，我们介绍了基于LLM \ TextEndEndash的模型Phoenix \ TextEndashvad，该模型可启用流式语义端点检测。具体而言 ...

0 0 0 2025/09/26 arXiv:2509.20410v1 lichenbook

F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

在动态视觉环境中执行语言条件的任务仍然是体现AI的核心挑战。现有的视觉语言动作（VLA）模型主要采用反应性状态映射，通常导致短暂的行为和动态场景中的鲁棒性。在本文中，我们介绍了F1，这是一个经过验证的VLA框架，将视觉远景生成整合到决策管道中 ...

0 0 0 2025/09/26 arXiv:2509.06951v2 15241278181

MetaAgent: Toward Self-Evolving Agent via Tool Meta-Learning

在这项工作中，我们提出了Metaagent，这是一个受到学习原则的启发的代理范式，在该原则中，通过动手实践和持续的自我完善发展专业知识。 Metaagent从最小的工作流程开始，仅配备了基本推理和自适应寻求帮助的能力。当遇到知识差距时，Metaagent会生成自然语言帮助请求，该请求将通过专用工具路由器将其路由到最合适的外部工具 ...

0 0 0 2025/09/26 arXiv:2508.00271v2 aaaa1

FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets

语义标识符（SIDS）由于其有意义的语义可辨别性，因此在生成检索（GR）中引起了人们的关注。但是，当前对SIDS的研究面临三个主要挑战：（1）缺乏具有多模式特征的大型公共数据集，（2）对SID生成优化策略的有限调查，通常依靠昂贵的GR培训进行评估，以及（3）在工业部署中慢慢的在线融合。为了应对这些挑战，我们提出了Forge，这是通过工业数据集在生成检索中形成语义标识符的综合基准 ...

0 0 0 2025/09/26 arXiv:2509.20904v1 dogtai

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）