一译 —— 文档和论文翻译、对照阅读、讨论和社区

Mahalanobis Distance-based Multi-view Optimal Transport for Multi-view Crowd Localization

多视图人群本地化预测了现场所有人的地面位置。典型方法通常首先估算地面平面上的人群密度图，然后获得人群位置。但是，现有方法的性能受到拥挤区域密度图的模棱两可的限制，在拥挤的地区可以使局部峰进行平滑 ...

0 0 0 2025/04/15 arXiv:2409.01726v1 vicky

Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion

实时生成共同语音的手势需要时间连贯性和有效抽样。我们引入了加速滚动扩散，这是一种用于流式手势生成的新型框架，它扩展了具有结构化的渐进噪声调度的滚动扩散模型，从而实现了无缝的长期运动综合，同时保留了现实主义和多样性。我们进一步提出了滚动扩散梯子加速器（RDLA），这是一种新方法，将噪声时间表重组为逐步梯子，从而同时将多个框架固定 ...

0 0 0 2025/04/15 arXiv:2503.10488v2 tuxiaolv

Robust Calibration of Large Vision-Language Adapters

本文讨论了基于剪辑的模型适应中错误校准的关键问题，尤其是在挑战性分布（OOD）样本的具有挑战性的情况下，这在现有的有关剪辑适应的文献中被忽略了。我们从经验上证明，流行的剪辑适应方法，例如适配器，及时的学习和测试时间适应，在存在分布漂移的情况下实质上降低了零摄像机基线的校准能力。我们确定logit范围的增加是剪辑适应方法错误校准的根本原因，与以前在校准完全监督模型的工作形成鲜明对比 ...

0 0 0 2025/04/15 arXiv:2407.13588v1 likelc

PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation

基于 Transformer 的扩散模型最近启用了文本对视频（T2V）的生成，但是当前的T2V模型由于对时间模型中的物理现实主义和缺乏的理解有限，因此缺乏遵守现实世界常识和物理规则的能力。现有解决方案是数据驱动的，要么需要额外的模型输入，但不能推广到分布域。在本文中，我们介绍了Phyt2v，这是一种与数据无关的T2V技术，它通过在T2V提示中启用了思想链和逐步推理，扩大了当前T2V模型的视频生成能 ...

0 0 0 2025/04/15 arXiv:2412.00596v2 yisinoya

Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models

扩散模型凭借强大的生成能力，在图像动画方面取得了长足的进步。然而，随着时间的推移，保持输入静态图像的详细信息的时空一致性（例如，... ...

0 0 0 2025/04/15 arXiv:2407.15642v2 gdutxgz

UAV-based Maritime Communications: Relaying to Enhance the Link Quality

在海上通信中提供稳定的连接性对于释放智能端口的全部潜力至关重要。尽管如此，由于港口环境的拥挤性质，有些船可能会被其他船只所遮蔽，从而减少了接收的功率，随后降低了其数据速率 - 甚至可能威胁到基本的连接要求。鉴于未被拖放的航空车（UAV）被视为后代无线通信网络不可或缺的一部分，因此它们也可用于海上通信 ...

0 0 0 2025/04/15 arXiv:2304.08650v2 me2457

海事网络

maritime VDES

0 0 0 2025/04/15 me2457

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

在本文中，我们调查了体现多代理合作的问题，在这个世界上只有以自我为中心的观点，分散的代理人必须合作。为了在这种情况下有效地计划，与在单一代理方案中学习世界动态相比，我们必须模拟以任意数量的代理行动为条件的世界动力学，仅在只有部分中心的世界视觉观察到世界上。为了解决该部分可观察性问题，我们首先训练生成模型，以估计以部分自我为中心的观察结果 ...

0 0 0 2025/04/15 arXiv:2404.10775v2 15904435063

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）