一译 —— 文档和论文翻译、对照阅读、讨论和社区

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

类似 Sora 的视频生成模型通过多模态扩散 Transformer  MM-DiT 架构取得了显着的进步。然而，当前的视频生成模型主要关注单提示，难以生成具有多个连续提示的连贯场景，以更好地反映现实世界的动态场景。虽然一些开创性的作品探索了多提示视频生成，但它们面临着重大挑战，包括严格的训练数据要求、弱提示跟随和不自然的过渡 ...

0 0 0 2025/06/19 arXiv:2412.18597v2 KingYi

CellAgent: An LLM-driven Multi-Agent Framework for Automated Single-cell Data Analysis

单细胞RNA测序（SCRNA-SEQ）数据分析对于生物学研究至关重要，因为它可以精确地表征细胞异质性。但是，手动操纵各种工具以实现预期的结果可能是研究人员的劳动密集型。为了解决这个问题，我们介绍了Cellagent（此HTTP URL），这是一个由LLM驱动的多代理框架，专为SCRNA-SEQ数据分析任务的自动处理和执行而设计，在没有人类干预的情况下提供了高质量的结果 ...

0 0 0 2025/06/19 arXiv:2407.09811v1 ifzz

RealisDance: Equip controllable character animation with realistic hands

可控角色动画是一个新兴任务，它生成由给定字符图像的姿势序列控制的字符视频。尽管角色一致性通过参考UNET取得了重大进展，但尚未通过现有方法对另一个关键因素（姿势控制）进行了很好的研究，从而导致了几个问题：1）当输入姿势序列损坏时，一代可能会失败。 2）使用DWPOSE序列产生的手是模糊的和不现实的 ...

0 0 0 2025/06/19 arXiv:2409.06202v1 小小卡拉米

DSFNet: Dual Space Fusion Network for Occlusion-Robust 3D Dense Face Alignment

对严重阻塞和大视角的敏感性限制了现有单眼3D密集的面部对齐方法的使用场景。基于3DMM的最先进的方法直接回归模型的系数，使低级2D空间和语义信息不足，这实际上可以提供面部形状和方向的线索。在这项工作中，我们演示了图像和模型空间中的3D面部几何形状如何共同解决遮挡和视角问题 ...

0 0 0 2025/06/19 arXiv:2305.11522v1 No_fake

Graphiti: Bridging Graph and Relational Database Queries

本文提出了一种自动推理技术，用于检查用Cypher编写的图形数据库查询与SQL中的关系查询之间的等效性。为了在这种情况下形式化适当的等价概念，我们介绍了数据库 Transformer 的概念，该概念在图和关系模型之间转换数据库实例。然后，我们提出了一种新颖的验证方法，该方法可以通过减少原始问题来验证一对SQL查询之间的等效性来检查给定的 Transformer  ...

0 0 0 2025/06/19 arXiv:2504.03182v1 liuweitang

RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

可控的角色动画仍然是一个具有挑战性的问题，尤其是在处理稀有姿势，风格化字符，角色对象相互作用，复杂的照明和动态场景时。为了解决这些问题，先前的工作主要集中在通过详尽的旁路网络注入姿势和外观指导，但经常努力概括为开放世界的情况。在本文中，我们提出了一种新的观点，即，只要基础模型足够强大，具有灵活的微调策略的直接模型修改就可以在很大程度上应对上述挑战，从而迈出迈向野外可控角色动画的一步 ...

0 0 0 2025/06/19 arXiv:2504.14977v1 小小卡拉米

CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation

卷积神经网络（CNN）已成为如今3D医疗图像分割的事实上的标准。但是，这些网络中使用的卷积操作不可避免地在建模远程依赖性的诱导性偏见和权重共享时会存在局限性。尽管 Transformer 诞生是为了解决这个问题，但它在处理高分辨率3D特征图中遭受了极端的计算和空间复杂性 ...

0 0 0 2025/06/19 arXiv:2103.03024v1 尼斯湖

Multi-Compound Transformer for Accurate Biomedical Image Segmentation

最近的视觉 Transformer （此HTTP URL图像分类）学习了不同斑块 Token 的非本地专家相互作用。但是，先前的艺术错过了学习不同像素的跨尺度依赖性，不同标签的语义对应关系以及特征表示和语义嵌入的一致性，这对于生物医学分割至关重要。在本文中，我们通过提出一个统一的 Transformer 网络来解决上述问题，该网络称为多混合 Transformer （MCTRANS），该网络将丰富 ...

0 0 0 2025/06/19 arXiv:2106.14385v1 尼斯湖

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）