一译 —— 文档和论文翻译、对照阅读、讨论和社区

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

我们推出了cswin Transformer ，这是一种高效且有效的基于 Transformer 的骨干网，用于通用视觉任务。 Transformer 设计中的一个具有挑战性的问题是全局自注意力的计算成本非常昂贵，而局部自注意力通常限制每个 Token 的交互领域。为了解决这个问题，我们开发了十字形窗口自注意力机制，用于并行计算形成十字形窗口的水平和垂直条纹的自注意力，每个条纹是通过将输入特征分割 ...

0 1 0 2025/04/21 arXiv:2107.00652v3 tunan

TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition

最近的研究已将卷积集成到 Transformer 中，以引入感应偏置并提高泛化性能。然而，传统卷积的静态性质使其无法动态适应输入变化，导致卷积和自注意力之间的表示差异，因为自注意力动态计算注意力矩阵。此外，当堆叠由卷积和自注意力组成的 Token 混合器形成深度网络时，卷积的静态性质阻碍了先前由自注意力生成的特征融合到卷积核中 ...

0 0 0 2025/04/21 arXiv:2310.19380v4 hnu

Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances

发现多模式话语的语义对于理解人类语言和增强人类机器互动至关重要。现有方法在利用非语言信息来辨别无监督的方案中的复杂语义方面存在局限性。本文介绍了一种新颖的无监督多模式聚类方法（UMC），从而为该领域做出了开创性的贡献 ...

0 0 0 2025/04/21 arXiv:2405.12775v1 Abidalswark

BioPose: Biomechanically-accurate 3D Pose Estimation from Monocular Videos

从单相机图像和视频中，3D人类姿势估计的最新进展取决于参数模型，例如SMPL。但是，这些模型过于简化解剖结构，限制了它们在捕获真正的关节位置和运动中的准确性，从而降低了它们在生物力学，医疗保健和机器人技术中的适用性。另一方面，生物力学上精确的姿势估计通常需要基于标记的运动捕获系统和优化技术 ...

0 0 0 2025/04/21 arXiv:2501.07800v1 2359175938

CICLe: Conformal In-Context Learning for Largescale Multi-Class Food Risk Classification

被污染或掺假的食物对人类健康构成了重大风险。给定的一组标记的用于培训，机器学习和自然语言处理的网络文本可以自动检测此类风险。我们发布了一个7,546个简短文本的数据集，描述了公共食品召回公告 ...

0 0 0 2025/04/21 arXiv:2403.11904v3 Yhanu

Momentum Control with Hierarchical Inverse Dynamics on a Torque-Controlled Humanoid

为控制机器人的控制，已经提出了基于二次程序级联的层次逆动力学。它们具有重要的好处，但据我们所知，从未在控制的人类机器人上实施，在这种类扭矩控制的类人动物上，模型不准确，传感器噪声和实时计算要求可能是有问题的。使用现有算法的重新制定，我们提出了可以实现实时控制的问题的简化问题 ...

0 0 0 2025/04/21 arXiv:1410.7284v2 parsifalster

InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models

大型语言模型中的先进推理在具有挑战性的任务上取得了出色的性能，但是普遍的长篇文本推理范式面临着临界限制：二次计算缩放，序列长度，序列长度，由最大上下文边界限制的推理以及超出预先训练上下文窗口以外的绩效降低。现有方法主要压缩推理链，而无需解决基本缩放问题。为了克服这些挑战，我们引入了Inftythink，这种范式将单片推理转化为中间摘要的迭代过程 ...

0 0 0 2025/04/21 arXiv:2503.06692v2 overwatcher

Frame attention networks for facial expression recognition in videos

基于视频的面部表达识别旨在将给定视频分类为几种基本情绪。如何整合单个帧的面部特征对于此任务至关重要。在本文中，我们提出了框架注意网络（FAN），以自动在端到端框架中突出一些歧视性帧 ...

0 0 32 2025/04/21 arXiv:1907.00193v2 Chess

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）