一译 —— 文档和论文翻译、对照阅读、讨论和社区

Fast Guided Filter

引导过滤器是一种用于边缘感知图像过滤的技术。由于具有良好的视觉质量，快速速度和易于实现的性能，导滤波器在真实产品中见证了各种应用，例如手机中的图像编辑应用程序和立体声重建，并已包含在MATLAB和OPENCV官方中。在本说明中，我们提醒您可以简单地将引导过滤器从O（n）时间加速到子采样比的O（n/s^2）时间 ...

0 0 0 2025/09/02 arXiv:1505.00996v1 myuan

Revitalizing Canonical Pre-Alignment for Irregular Multivariate Time Series Forecasting

不规则的多元时间序列（IMT），其特征是采样不均和变化异步，为许多预测的应用提供了许多预测的应用，但仍具有效地建模。在IMTS建模中，通过在每个全球时间戳进行填充零来广泛采用规范的预一致性（CPA），从而减轻了相互变化的异步并统一了系列长度，但其密集的零式填充量会膨胀预先一致的系列长度，尤其是当许多变化的序列中，尤其是在许多变化中都出现了许多变化，会出现许多变化。最新的基于图形的模型具有修补策略的 ...

0 0 0 2025/09/02 arXiv:2508.01971v1 lzlzlz

VIMA: General Robot Manipulation with Multimodal Prompts

基于提示的学习已成为自然语言处理中的成功范例，其中可以指示单个通用语言模型执行输入提示指定的任何任务。然而，机器人技术中的任务规范有多种形式，例如模仿一次性演示、遵循语言指令以及达到视觉目标。它们通常被认为是不同的任务并由专门的模型来处理 ... ...

0 0 0 2025/09/02 arXiv:2210.03094v2 yangmasheng

RoboCopilot: Human-in-the-loop Interactive Imitation Learning for Robot Manipulation

从人类示范中学习是学习复杂的操纵技巧的有效方法。但是，现有方法集中在从被动人类示范数据中学习，以简化数据收集。互动人类的教学具有具有理论和实用性的吸引力，但是现有的人类机器人界面并没有很好地支持它们 ...

0 0 0 2025/09/02 arXiv:2503.07771v1 万类霜天

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

当前的测试时间缩放范围依赖于在产生响应之前生成较长的推理轨迹（“更多”）。在需要互动的代理问题中，这可以通过在世界上行动之前产生思维痕迹来完成。但是，此过程不允许代理商从环境中获取新信息或随着时间的推移调整其行为 ...

0 0 0 2025/09/02 arXiv:2506.07976v2 littlehorse

GKG-LLM: A Unified Framework for Generalized Knowledge Graph Construction

广义知识图（GKG）的构建，包括知识图，事件知识图和常识知识图，对于各种自然语言处理任务至关重要。当前的研究通常分别构建这些类型的图形，忽略了整体见解和潜在统一，这可能对计算资源和使用观点有益。但是，开发GKG统一框架的主要挑战是特定于任务的差异引起的障碍 ...

0 0 0 2025/09/02 arXiv:2503.11227v2 huaizhe2000

Self-Supervised Geometric Correspondence for Category-Level 6D Object Pose Estimation in the Wild

虽然6D对象姿势估计在计算机视觉和机器人技术中具有广泛的应用，但由于缺乏注释，它仍无法解决。当转向类别级别的6D姿势时，问题变得更加具有挑战性，这需要概括才能看不见的实例。当前的方法受到利用模拟或从人类收集的注释的限制 ...

0 0 0 2025/09/02 arXiv:2210.07199v3 hx5563

Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning

大语言模型（LLM）中的多模式推理与不完整的知识和幻觉伪像斗争，挑战文本知识图（kgs）仅由于其模态隔离而部分缓解。尽管多模式知识图（MMKGS）有望增强跨模式的理解，但它们的实际结构受到了手动文本注释和视觉声音实体链接中固有噪声的语义狭窄的影响。在本文中，我们提出了视觉对语言对语言的综合知识图（Valik），这是一种构建MMKGS的新方法，可通过补充跨模式信息来增强LLMS推理 ...

0 0 0 2025/09/02 arXiv:2503.12972v2 huaizhe2000

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）