一译 —— 文档和论文翻译、对照阅读、讨论和社区

TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials

构建图形用户界面（GUI）代理是一个有前途的研究方向，它模拟了与计算机或手机的人类互动以执行各种GUI任务。但是，开发广义GUI代理的主要挑战是在各种操作系统和应用程序中缺乏足够的轨迹数据，这主要是由于手动注释的高成本。在本文中，我们提出了TONGUI框架，该框架通过从丰富的多模式Web教程中学习来建立广义的GUI代理 ...

0 0 0 2025/04/18 arXiv:2504.12679v1 bage

An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual Grounding

大多数先进的视觉接地方法依靠 Transformer 进行视觉语言特征融合。但是，这些基于 Transformer 的方法遇到了一个重要的缺点：由于 Transformer 编码器中的自我发起机制，尤其是在处理高分辨率图像或长上下文句子时，计算成本正常升级。计算负担的这种二次增加限制了视觉接地对更复杂的场景的适用性，例如基于对话的推理细分，涉及冗长的语言表达式 ...

0 0 0 2025/04/18 arXiv:2408.01120v1 chengwenxuan7

TimeHF: Billion-Scale Time Series Models Guided by Human Feedback

时间序列神经网络在现实世界应用中表现出色，但遇到挑战，例如有限的可扩展性，概括性差和次优的零拍摄性能。受到大型语言模型的启发，人们有兴趣开发大型时间序列模型（LTM）来解决这些问题。但是，当前的方法在训练复杂性，调整人类反馈并实现高预测准确性方面困难 ...

0 0 0 2025/04/18 arXiv:2501.15942v1 18906413861

Mask Grounding for Referring Image Segmentation

参考图像分割（RIS）是一项具有挑战性的任务，需要算法来分割由自由形式语言表达式引用的对象。尽管近年来取得了重大进展，但大多数最先进的方法（SOTA）方法仍然存在相当大的语言图像模态差距在像素和单词级别。这些方法通常1）依靠句子级的语言特征来进行语言图像对齐，2）缺乏明确的训练监督，无法进行细粒度的视觉接地 ...

0 0 0 2025/04/18 arXiv:2312.12198v2 chengwenxuan7

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

本文介绍了SAIL，这是一种单个 Transformer 统一的多模式大语言模型（MLLM），该模型（MLLM）将原始像素编码和语言解码集成在单数体系结构中。与依赖于预训练的视觉 Transformer （VIT）的现有模块化MLLM不同，Sail消除了对单独的视觉编码器的需求，从而提出了更简约的架构设计。 Sail没有引入新颖的建筑组件，而是适应混合注意机制和多模式的位置编码，以更好地与视觉和文 ...

0 0 0 2025/04/18 arXiv:2504.10462v1 Archer

Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting

从随意捕获的单眼视频中重建4D动态场景是有价值的，但又具有挑战性，因为从单个角度观察到每个时间戳。我们介绍了Vivid4d，这是一种新颖的方法，通过增强观察观点来增强4D单眼视频综合 - 从单眼输入中合成多视图视频。与仅利用几何学先验的现有方法进行监督或在俯瞰几何学时使用生成先验的方法，我们都集成了两者 ...

0 0 0 2025/04/18 arXiv:2504.11092v1 KingXHJ

What Actions are Needed for Understanding Human Actions in Videos?

关于人类活动的正确推理方法是什么？最有前途的方向是什么？在这项工作中，我们分析了视频中人类活动的当前状态。本文的目的是检查数据集，评估指标，算法和潜在的未来方向。我们查看定义活动的定性属性，例如姿势变异性，简洁和密度 ...

0 0 0 2025/04/18 arXiv:1708.02696v1 yiyi07

Flow Intelligence: Robust Feature Matching via Temporal Signature Correlation

跨视频流的功能匹配仍然是计算机视觉中的基石挑战。强大的多模式匹配越来越多地引起了人们对机器人技术，监视，遥感和医学成像的兴趣。尽管传统依靠检测和匹配的空间特征，但面对嘈杂，未对准或跨模式数据时，它们会分解 ...

0 0 0 2025/04/18 arXiv:2504.11949v1 KingXHJ

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）