一译 —— 文档和论文翻译、对照阅读、讨论和社区

SelfAge: Personalized Facial Age Transformation Using Self-reference Images

面部图像的年龄变化是一种在保留身份的同时编辑与年龄相关的人的外观的技术。现有的基于深度学习的方法可以再现自然年龄的转变；但是，他们只能再现平均过渡，并且无法解释受其生活历史影响的个人特定外观。在本文中，我们提出了一种基于个性化年龄转化的基于扩散模型的方法 ...

0 0 0 2025/04/17 arXiv:2502.13987v1 dourcer

FLAME: Learning to Navigate with Multimodal LLM in Urban Environments

大型语言模型（LLM）表现出在视觉和语言导航（VLN）任务中的潜力，但是当前的应用程序面临着挑战。尽管LLM在一般的对话场景中表现出色，但他们在专门的导航任务中挣扎，与专业VLN模型相比，其表现次优。我们介绍了Flame（Flamingo Archit的体现代理），这是一种新型的基于LLM LLM的代理和架构，为Urban VLN任务设计，可有效地处理多个观察结果 ...

0 0 0 2025/04/17 arXiv:2408.11051v2 alimir

Edicho: Consistent Image Editing in the Wild

根据验证的需求，跨野生图像的一致编辑仍然是由各种难以管理的因素（例如对象姿势，照明条件和摄影环境）引起的技术挑战。 Edicho使用基于扩散模型的无训练解决方案介入，其基本设计原理是使用显式图像对应来直接编辑。具体而言，关键组件包括注意操纵模块和精心完善的无分类器指导（CFG）降级策略，这两者都考虑到预估计的对应关系 ...

0 0 0 2025/04/17 arXiv:2412.21079v3 xuan

Blades: A Unified Benchmark Suite for Byzantine Attacks and Defenses in Federated Learning

联合学习（FL）促进了跨不同物联网和边缘设备的分布培训，从而保护了数据的隐私。 FL的固有分布结构引入了漏洞，尤其是从旨在使本地更新偏向其优势的对抗设备。尽管大量的研究着重于拜占庭式的FL，但学术界尚未建立一个全面的基准套件，是公正评估和对不同技术的比较的关键 ...

0 0 0 2025/04/17 arXiv:2206.05359v4 chenzhuo-wang

Transfer between Modalities with MetaQueries

统一的多模式模型旨在整合理解（文本输出）和发电（像素输出），但是单个体系结构中的这些不同模式通常需要复杂的培训配方和仔细的数据平衡。我们介绍了Metaqueries，这是一组可学习的查询，它们是自回归多模式LLM（MLLM）和扩散模型之间有效界面的。 Metaqueries通过利用MLLM的深刻理解和推理能力，将MLLM的潜在的潜在解码器连接到扩散解码器 ...

0 0 0 2025/04/17 arXiv:2504.06256v1 allen1000

StyleTokenizer: Defining Image Style by a Single Instance for Controlling Diffusion Models

尽管用于控制扩散过程的创新方法爆发，但在文本到图像生成中有效控制图像样式仍然是一项艰巨的任务。许多基于适配器的方法将图像表示条件施加在降级过程中，以实现图像控制。但是，这些条件与单词嵌入空间不符，导致图像和文本控制条件之间的干扰以及文本提示中语义信息的潜在丢失 ...

0 0 0 2025/04/17 arXiv:2409.02543v1 xuan

Towards Fast, Specialized Machine Learning Force Fields: Distilling Foundation Models via Energy Hessians

基础模型（FM）范式正在转换机器学习力场（MLFF），利用通用表示形式和可扩展的训练以执行各种计算化学任务。尽管MLFF FMS已经开始缩小相对于第一原理方法的准确性差距，但仍然需要更快的推理速度。此外，尽管研究越来越集中于跨化学空间转移的通用模型，但从业人员通常只在给定时间研究一小部分系统 ...

0 0 0 2025/04/17 arXiv:2501.09009v2 ZeHeru

RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback

奖励工程长期以来一直是加强学习（RL）研究的挑战，因为它通常需要大量的人类努力和反复试验的迭代过程来设计有效的奖励功能。在本文中，我们提出了RL-VLM-F，这种方法通过利用视觉语言基础模型（VLMS）的反馈来利用反馈，自动使用任务目标和代理的视觉观察的文本描述来自动为代理学习新任务的奖励功能。我们方法的关键是要查询这些模型，以根据任务目标的文本描述对代理的图像观察对偏好，然后从偏好标签中学习奖励 ...

0 0 0 2025/04/17 arXiv:2402.03681v4 aaazhaold

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）