一译 —— 文档和论文翻译、对照阅读、讨论和社区

Latent Distribution Decoupling: A Probabilistic Framework for Uncertainty-Aware Multimodal Emotion Recognition

多模式多标签情绪识别（MMER）旨在确定多模式数据中多种情绪的同时存在。现有研究主要集中于改善融合策略和建模形式与标签依赖性。但是，他们经常忽略\ textbf {areatoric不确定性}的影响，这是多模式数据中固有的噪声，并通过将歧义引入特征表示形式来阻碍模态融合的有效性 ...

0 0 0 2025/04/12 arXiv:2502.13954v1 huyang

Enhancing Multimodal Affective Analysis with Learned Live Comment Features

实时评论（也称为Danmaku）是用户生成的消息，与视频内容同步。这些评论直接覆盖在流视频上，实时捕获观众的情绪和反应。尽管先前的工作利用了实时评论在情感分析中，但由于在不同的视频平台上实时评论的相对稀有性，其使用受到限制 ...

0 0 0 2025/04/12 arXiv:2410.16407v1 huyang

AffectGPT: A New Dataset, Model, and Benchmark for Emotion Understanding with Multimodal Large Language Models

多模式大语言模型（MLLM）的出现将多模式情感识别（MER）推进到下一个级别的幼稚歧视任务，以通过高级视频理解能力和自然语言描述进行复杂的情感理解。但是，当前的社区遭受了缺乏大规模的数据集的遭受密集的，描述性的情感注释，以及一个以多模式为中心的框架，以最大程度地提高MLLM的情感理解潜力。为了解决这个问题，我们通过新的数据集（Mer-Caption）和一个新的模型（actimentgpt）建立了一 ...

0 0 0 2025/04/12 arXiv:2501.16566v1 huyang

VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

增强学习的最新进展显着提高了多模式大型语言模型（MLLM）的推理能力。尽管诸如小组相对政策优化（GRPO）和基于规则的奖励机制之类的方法在文本和图像域中证明了有希望，但它们在视频理解中的应用仍然有限。本文介绍了对视频MLLM的GRPO进行加固微调（RFT）的系统探索，旨在增强时空感知，同时保持一般能力 ...

0 0 0 2025/04/12 arXiv:2504.06958v2 hx5563

Vision Transformer with Deformable Attention

 Transformer 最近在各种视觉任务中表现出了卓越的性能。较大的、有时甚至是全局的感受野赋予 Transformer 模型比cnn模型更高的表示能力。然而，简单地扩大感受野也会引起一些担忧... ...

0 0 0 2025/04/12 arXiv:2201.00520v3 zyh12345

Auto White-Balance Correction for Mixed-Illuminant Scenes

自动白平衡（AWB）在捕获时使用相机硬件应用，以删除场景照明引起的颜色铸件。绝大多数白色平衡算法都假设单一的光源照亮了现场。但是，真实场景通常具有混合的照明条件。本文提出了一种有效的AWB方法来处理此类混合透明场景 ...

0 0 0 2025/04/12 arXiv:2109.08750v2 flynnamy

Wan: Open and Advanced Large-Scale Video Generative Models

该报告介绍了Wan，这是一套全面的视频基础模型，旨在突破视频生成的界限。 WAN建立在主流扩散 Transformer 范式的基础上，通过一系列创新，包括我们的新型VAE，可扩展的预训练策略，大规模数据策划和自动化评估指标，从而在生成能力方面取得了重大进步。这些贡献共同提高了模型的性能和多功能性 ...

0 0 0 2025/04/12 arXiv:2503.20314v1 waitsop

Glance and Focus Networks for Dynamic Visual Recognition

空间冗余在视觉识别任务中广泛存在，即图像或视频框架中的判别特征通常仅对应于像素的子集，而其余区域与手头的任务无关 ...

0 0 0 2025/04/12 arXiv:2201.03014v2 q774798577

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）