一译 —— 文档和论文翻译、对照阅读、讨论和社区

PID: Physics-Informed Diffusion Model for Infrared Image Generation

红外成像技术因其在低可见性条件下的可靠传感能力而引起了极大的关注，促使许多研究将丰富的RGB图像转换为红外图像。但是，大多数现有的图像翻译方法将红外图像视为一种风格差异，忽略了基本的物理定律，从而限制了其实际应用。为了解决这些问题，我们提出了一个信息信息扩散（PID）模型，用于将RGB图像转换为遵守物理定律的红外图像 ...

0 0 0 2025/06/16 arXiv:2407.09299v2 13366395289

PRISM: A Framework for Producing Interpretable Political Bias Embeddings with Political-Aware Cross-Encoder

语义文本嵌入是一个基本的NLP任务，将文本内容编码为矢量表示，其中嵌入空间的接近性反映了语义相似性。尽管现有的嵌入模型在捕捉一般意义方面表现出色，但他们经常忽略意识形态的细微差别，限制了它们在需要理解政治偏见的任务中的有效性。为了解决这一差距，我们介绍了Prism，这是旨在产生可解释的政治偏见的第一个框架 ...

0 0 0 2025/06/16 arXiv:2505.24646v1 yanlinghansd

HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

大型多模型模型（LMM）的出色表现引起了图像分割社区的重大兴趣。为了与下一步的预测范式保持一致，当前LMM驱动的分割方法要么使用对象边界点表示掩码，要么引入特殊的分割 Token ，其隐藏的状态由需要原始图像作为输入的分割模型解码。但是，这些方法经常遭受掩模的表示和复杂的体系结构的影响，从而限制了LMM的潜力 ...

0 0 0 2025/06/16 arXiv:2503.13026v1 鸡腿堡

PROGRESSOR: A Perceptually Guided Reward Estimator with Self-Supervised Online Refinement

我们提出了Progressor，这是一个新颖的框架，可以从视频中学习任务不合时宜的奖励功能，从而在没有手动监督的情况下通过目标条件的强化学习（RL）实现了政策培训。基本的奖励是对任务进度的分布的估计，这是以自我监督的方式学习的当前，初始和目标观察的函数。至关重要的是，在线RL培训期间，进步者通过推迟预测分布观察值的预测，以减轻非专家观察中固有的分配变化，从而在在线RL培训期间以对手进行对抗 ...

0 0 0 2025/06/16 arXiv:2411.17764v1 rommelcyzyb

Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem

旅行推销员问题（TSP）是最初在运输和物流领域中引起的经典路由优化问题，已成为更广泛的领域（例如制造和生物学）的关键任务。最近，由于推理效率很高，深度加固学习（DRL）已越来越多地用于解决TSP。然而，大多数现有的端到端DRL算法仅在小型TSP实例上表现良好，并且由于记忆消耗和计算时间急剧上升，以及扩大的问题量表，因此几乎无法大规模概括 ...

0 0 0 2025/06/16 arXiv:2304.09407v1 huanghaozheyyds

Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective

多模式情感计算（MAC）由于其在分析人类的行为和意图方面的广泛应用而引起了人们的关注，尤其是在文本主导的多模式情感计算领域。这项调查通过四个热门任务从NLP的角度出发了多模式情感计算的最新趋势：多模式情感分析，对话中的多模式情感识别，多模式的基于方面的情感分析和多模式多模式的情感识别。这项调查的目的是探索当前多模式情感研究的景观，确定发展趋势，并突出各种任务之间的相似性和差异，从NLP的角度提供有 ...

0 0 0 2025/06/16 arXiv:2409.07388v2 qunqun

MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control

由大语言模型（LLMS）提供动力的自主代理在包括移动设备控制在内的各个领域的辅助任务中显示出有希望的潜力。由于这些代理直接与个人信息和设备设置进行互动，因此确保其安全可靠的行为对于防止不良结果至关重要。但是，对于移动设备控制代理的安全性评估标准化评估不存在基准 ...

0 0 0 2025/06/16 arXiv:2410.17520v2 hhhhh

ExFace: Expressive Facial Control for Humanoid Robots with Diffusion Transformers and Bootstrap Training

本文提出了一种基于扩散 Transformer 的新型表达面部控制（EXFACE）方法，该方法从人的面部搅拌机到仿生机器人运动控制。通过纳入创新的模型引导训练策略，我们的方法不仅产生高质量的面部表情，而且可以显着提高准确性和平滑度。实验结果表明，所提出的方法在准确性，每秒帧（FPS）和响应时间方面优于先前的方法 ...

0 0 0 2025/06/16 arXiv:2504.14477v1 alex666

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）