一译 —— 文档和论文翻译、对照阅读、讨论和社区

M$^4$oE: A Foundation Model for Medical Multimodal Image Segmentation with Mixture of Experts

医学成像数据本质上是不同方式和临床中心的异质性，为开发可推广的基础模型带来了独特的挑战。常规的每个数据集需要培训不同的模型或使用具有特定于模态解码器的共享编码器。但是，这些方法会产生大量的计算开销，并遭受较差的可伸缩性 ...

0 0 9 2025/09/08 arXiv:2405.09446v1 Fanfanfan

Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement

具有身份的文本对视频（IPT2V）一代为参考主题图像和文本提示而创建视频。在微调ID匹配数据上的大型视频扩散模型的同时，可以在IPT2V上获得最新的结果，但数据稀缺和高调成本却在更广泛的改善中。 We thus introduce a Training-Free Prompt, Image, and Guidance Enhancement (TPIGE) framework that bridg ...

0 0 0 2025/09/08 arXiv:2509.01362v1 smallz

TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

通过强化学习使大型语言模型保持一致的最新进展在解决复杂的推理问题方面取得了显着的收益，但以昂贵的车间推销和对各种推理路径的探索有限。在这项工作中，我们介绍了Treepo，其中涉及一种自引导的推出算法，该算法将序列生成视为树的结构化搜索过程。 Treepo由动态树采样策略和固定长度段解码组成，利用本地不确定性来保证其他分支 ...

0 0 0 2025/09/08 arXiv:2508.17445v1 leec

Certifying Strategyproof Auction Networks

最佳拍卖可以最大程度地提高卖方的预期收入。迈尔森（Myerson）在1981年的开创性工作解决了拍卖单个项目的案例。但是，随后几十年的工作几乎没有超出单个项目的进展，从而使收入最大化拍卖的设计是机制设计领域的中心开放问题。 “可区分经济学”的最新工作已经使用了现代深度学习的工具，而是学习良好的机制 ...

0 0 0 2025/09/08 arXiv:2006.08742v1 tainren9

Scaled-Dot-Product Attention as One-Sided Entropic Optimal Transport

缩放点产品的注意力（SDPA）机制是现代深度学习的核心组成部分，但其数学形式通常是由启发式方法激发的。这项工作为SDPA提供了第一原理的理由。我们首先表明，注意向前通行证是归化，单侧熵最佳传输（EOT）问题的精确解决方案，该解决方案寻求最大程度地相似性的分布，同时最大程度地发射熵 ...

0 0 14 2025/09/08 arXiv:2508.08369v1 hwrabbit

Frequency-Masked Embedding Inference: A Non-Contrastive Approach for Time Series Representation Learning

对比学习的基础是大多数当前的自我监督时间序列表示方法。构建正样品对的策略显着影响最终表示质量。但是，由于时间序列语义的连续性，对比度学习的建模方法努力为适应时间序列数据的特征而努力 ...

0 0 0 2025/09/08 arXiv:2412.20790v2 haoyb22

ReStyle3D: Scene-Level Appearance Transfer with Semantic Correspondences

我们介绍了Restyle3D，这是一个新颖的框架，用于场景级别外观从单个样式图像转移到由多个视图代表的真实场景。该方法将明确的语义对应关系与多视图一致性结合在一起，以实现精确和连贯的风格化。与全球应用参考样式的常规样式化方法不同，Restyle3D使用开放式摄影库分割来建立样式和现实世界图像之间的密集实例级对应关系 ...

0 0 0 2025/09/08 arXiv:2502.10377v2 liuyibo

Interpretable EEG-to-Image Generation with Semantic Prompts

从大脑信号中解码视觉体验为神经科学和可解释的AI提供了令人兴奋的可能性。虽然脑电图可访问且在时间上精确，但其空间细节的局限性阻碍了图像重建。我们的模型通过与大型语言模型生成的多级语义字幕（从对象级到抽象主题）来对齐脑电图信号（从对象级到抽象主题）绕开直接的脑电图生成 ...

0 0 0 2025/09/08 arXiv:2507.07157v1 helloworldhello

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）