一译 —— 文档和论文翻译、对照阅读、讨论和社区

HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation

现有的2到3D人类姿势估计（HPE）方法通过在举重阶段丰富了诸如时间和视觉提示之类的信息，以困扰遮挡问题。在本文中，我们认为这些方法忽略了稀疏骨架2D输入表示的局限性，该表示从根本上限制了2d-3d的提升，并使闭塞问题恶化。为了解决这些问题，我们提出了一种新型的两阶段生成致密方法，称为层次姿势自回归 Transformer （HIPART），以从原始的稀疏2D姿势中生成分层的2D密集姿势 ...

0 0 0 2025/09/09 arXiv:2503.23331v1 yanyu

STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

我们介绍了Stream3R，这是一种新型3D重建方法，将尖端图预测重新定义为仅解码器的 Transformer 问题。多视图重建的现有最新方法要么取决于昂贵的全局优化，要么依赖于随着序列长度缩小尺度较差的简单记忆机制。相比之下，Stream3R引入了一个流框架，该框架灵感来自现代语言建模的进步，从而有效地使用因果关注来处理图像序列 ...

0 0 0 2025/09/09 arXiv:2508.10893v1 陆三七

CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning

深度学习（例如 Transformer）已广泛且成功地应用于多元时间序列预测（MTSF） ...

0 0 0 2025/09/08 arXiv:2403.07300v3 haoyb22

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

视频生成的最新进展导致视觉质量和时间连贯性的显着改善。为此，已经出现了可控制的视频，可以通过明确定义的空间路径来启用精确的对象运动控制。但是，现有的方法与复杂的对象运动和多对象运动控制障碍，从而导致轨迹依从性不精确，对象一致性差和视觉质量受损 ...

0 1 0 2025/09/08 arXiv:2503.16421v2 yisinoya

Neural Machine Translation of Clinical Text: An Empirical Investigation into Multilingual Pre-Trained Language Models and Transfer-Learning

我们通过使用基于 Transformer 的结构等深度学习检查多语言神经网络模型来对临床文本翻译进行研究。此外，为了解决语言资源不平衡问题，我们还使用基于大规模多语言的预训练的语言模型（MMPLM）进行转移学习方法进行实验。在三个子任务中的实验结果，包括1）临床病例（CC），2）临床术语（CT）和3）本体论概念（OC）表明，我们的模型在Clinspen-2022在英语 - 跨度临床领域数据上达到了 ...

0 0 0 2025/09/08 arXiv:2312.07250v2 NeverSettle

Reason out Your Layout: Evoking the Layout Master from Large Language Models for Text-to-Image Synthesis

文本到图像（T2I）生成模型的最新进展显示出基于文本提示来产生多样化和富有想象力的视觉效果的显着功能。尽管有进步，但这些扩散模型有时很难将语义内容从文本完全转化为图像。虽然在布局上进行条件已证明可以有效提高T2i扩散模型的组成能力，但它们通常需要手动布局输入 ...

0 0 0 2025/09/08 arXiv:2311.17126v1 yisinoya

InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models

大规模文本到图像（ t2i）扩散模型展示了基于文本描述生成连贯图像的令人难以置信的能力，从而在内容生成中实现了广泛的应用。虽然最近的进步引入了对对象定位、姿势和图像轮廓等因素的控制，但我们控制生成内容中对象之间交互的能力仍然存在重大差距。良好控制生成图像中的交互可以产生有意义的应用，例如创建具有交互角色的真实场景... ...

0 1 0 2025/09/08 arXiv:2312.05849v2 parsifalster

Freestyle Layout-to-Image Synthesis

典型的布局到图像合成（LIS）模型为封闭的语义类别生成图像，例如，Coco-stuff中的182个常见对象 ...

0 1 0 2025/09/08 arXiv:2303.14412v1 yisinoya

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）