一译 —— 文档和论文翻译、对照阅读、讨论和社区

Understanding GUI Agent Localization Biases through Logit Sharpness

多模式的大语言模型（MLLM）使GUI代理通过将语言扎根于空间动作来与操作系统交互。尽管表现出色，但这些模型经常表现出损害可靠性的幻觉系统定位错误。我们提出了一个细粒度的评估框架，将模型预测分为四种不同类型，揭示了传统准确度指标以外的细微失败模式 ...

0 0 0 2025/07/18 arXiv:2506.15425v1 dqyzhwk

R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding

在图形用户界面（GUI）上自动化人类活动的视觉代理模型已成为一个有前途的研究方向，这是由大型视觉语言模型（VLM）的进步驱动的。 GUI自动化中的一个关键挑战是跨不同平台的接口元素的确切基础。现有的仅视力GUI代理直接从大型和混乱的屏幕截图中接地，要求它们处理损害其准确性的大量无关信息 ...

0 0 0 2025/07/18 arXiv:2507.05673v1 dqyzhwk

ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

大型语言模型（LLM）扩大了其影响，超出了自然语言处理，从而大大促进了跨学科研究的发展。最近，已经开发了各种基于LLM的代理，以帮助跨多个方面和领域的科学发现进展。其中，能够像人类一样与操作系统进行交互的计算机代理正在为自动化科学问题解决方案铺平道路，并解决研究人员工作流程中的常规 ...

0 1 0 2025/07/18 arXiv:2505.19897v2 hzx719

DELTA: degradation-free fully test-time adaptation

完全测试的适应性旨在在实时推理期间将预训练的模型适应测试流，这是在测试分布与训练分布不同时急需的。几项努力致力于改善适应性绩效。但是，我们发现在普遍的适应方法中隐藏了两个不利的缺陷，例如测试时间批归一化（BN）和自学习 ...

0 0 0 2025/07/18 arXiv:2301.13018v1 lin3

Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools

我们介绍了代理推理，该框架通过整合使用外部工具的代理来增强大型语言模型（LLM）推理。与传统的基于LLM的推理方法不同，这些方法仅依赖于内部推理，代理推理动态参与Web搜索，代码执行和结构化的推理 - 上下文内存，以解决需要深入研究和多步逻辑扣除的复杂问题。我们的框架介绍了思维地图代理，该框架构建了一个结构化的知识图来跟踪逻辑关系，从而改善了演绎推理 ...

0 0 0 2025/07/18 arXiv:2502.04644v2 york.zhu

ThinkSwitcher: When to Think Hard, When to Think Fast

大型推理模型（LRMS）通过利用长期的经过思考（COT）推理来解决复杂的任务。但是，这通常会导致对简单任务的思考，从而导致不必要的计算开销。我们观察到，LRM固有地具有有效的短COT推理的能力，可以通过及时设计可靠地引起该作用 ...

0 0 0 2025/07/18 arXiv:2505.14183v1 mingyu

Think Only When You Need with Large Hybrid-Reasoning Models

最近的大型推理模型（LRMS）通过在产生最终响应之前纳入扩展的思维过程，显示出比传统大型语言模型（LLM）的推理能力大大提高的推理能力。但是，过长的思维在 Token 消费和延迟方面引入了大量的开销，这对于简单的查询尤为不必要。在这项工作中，我们介绍了大型混合策划模型（LHRMS），这是第一种能够根据用户查询的上下文信息自适应地确定是否执行思考的模型 ...

0 0 0 2025/07/18 arXiv:2505.14631v2 mingyu

AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting

现代大型推理模型通过采用复杂的推理策略来表现出令人印象深刻的解决问题的能力。但是，他们经常努力平衡效率和有效性，经常为简单问题产生不必要的漫长推理链。在这项工作中，我们提出了ADACTRL，这是一个新颖的框架，以支持难以感知的适应性推理预算分配和明确的用户对推理深度的控制 ...

0 0 0 2025/07/18 arXiv:2505.18822v1 mingyu

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）