一译 —— 文档和论文翻译、对照阅读、讨论和社区

Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

大型语言模型（LLM）最近在建立自主代理方面引起了很多关注。但是，当前基于LLM的Web代理在长途任务中的性能远非最佳，通常会产生错误，例如反复购买不可退还的飞行票。相比之下，人类可以避免这种不可逆转的错误，因为我们对潜在结果有意识（e ...

0 0 4 2025/04/29 arXiv:2410.13232v2 panda__

Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator

强化学习（RL）在机器人控制方面表现出了令人印象深刻的能力，但由于样本复杂性，安全性问题和SIM卡之间的差距很高，因此仍然具有挑战性。虽然离线RL通过从预先收集的数据中学习而消除了对风险的现实探索的需求，但它遭受了分销转移的损害，限制了政策概括。基于模型的RL（MBRL）通过利用预测模型进行合成推出来解决此问题，但是现有方法通常缺乏强大的不确定性估计，从而导致离线设置中的错误错误 ...

0 0 0 2025/04/29 arXiv:2504.16680v1 yukun

Physically Consistent Humanoid Loco-Manipulation using Latent Diffusion Models

本文使用潜在扩散模型（LDMS）的功能来生成现实的RGB人体对象相互作用场景来指导类人动物机器人的操作计划。为此，我们从生成的图像中提取触点位置和机器人配置，然后在全身轨迹优化（TO）中使用这些图像，以生成人形生物的物理一致的轨迹。我们在模拟不同的长马机车操作方案中验证了我们的完整管道，并对拟议的触点和机器人配置提取管道进行了广泛的分析 ...

0 0 0 2025/04/29 arXiv:2504.16843v1 yukun

Simultaneous Collision Detection and Force Estimation for Dynamic Quadrupedal Locomotion

在本文中，我们仅使用关节编码器信息和机器人动力学解决了四足球运动的同时碰撞检测和力估计问题。我们设计了一种相互作用的多模型卡尔曼滤波器（IMM-KF），该滤镜估计了在机器人上施加的外部力量和多个可能的接触模式。该方法对于任何步态模式设计都是不变的 ...

0 0 0 2025/04/29 arXiv:2504.17201v1 yukun

Cross-lingual Prompting: Improving Zero-shot Chain-of-Thought Reasoning across Languages

经过思考链（COT）能够引起模型明确产生推理路径，从而促进推理准确性并引起人们越来越多的关注。具体而言，零射门COT通过简单地使用提示“让我们逐步思考！”来指导LLM，从而在广泛的推理任务中取得了显着改进。尽管零镜床取得了成功，但现有的零射击提示技术仍限于一种单一语言，这使得将其推广到其他语言并阻碍了全球发展是一项挑战 ...

0 0 0 2025/04/29 arXiv:2310.14799v1 18876556787

An Open-Source System for Vision-Based Micro-Aerial Vehicle Mapping, Planning, and Flight in Cluttered Environments

我们提出了一个开源系统，用于从基于视觉的传感中自动导航的微型汽车自动导航。我们的系统着重于密集的映射，安全的本地规划和全球轨迹生成，尤其是在混乱环境中使用狭窄的视野传感器时。此外，还提供了有关系统其他必要部分的详细信息以及在现实情况下的应用程序的特殊注意事项 ...

0 0 0 2025/04/29 arXiv:1812.03892v3 zhifeiji

Query Driven-Graph Neural Networks for Community Search: From Non-Attributed, Attributed, to Interactive Attributed

给定一个或多个查询顶点，社区搜索（CS）旨在找到密集的内部连接和松散的相互连接的结构，其中包含查询顶点。归因于社区搜索（ACS）是一个相关问题，它更具挑战性，因为它找到具有凝聚力结构和均匀顶点属性的社区。但是，大多数CS任务的方法都依赖于僵化的预定义结构和ACS研究，独立处理每个属性 ...

0 0 0 2025/04/29 arXiv:2104.03583v2 18045186869

Large Language Model-Brained GUI Agents: A Survey

GUI 长期以来一直是人机交互的核心，提供了一种直观且视觉驱动的方式来访问数字系统并与之交互。 LLM ，特别是多模式模型的出现，开创了 GUI 自动化的新时代。他们在自然语言理解、代码生成和视觉处理方面表现出了卓越的能力 ...

0 0 0 2025/04/29 arXiv:2411.18279v11 dqyzhwk

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）