一译 —— 文档和论文翻译、对照阅读、讨论和社区

Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation

在反馈稀疏的环境中学习目标指导的行为是增强学习算法的主要挑战。主要的困难是由于探索不足而导致的，导致代理无法学习稳健的价值功能。本质上有动机的代理可以出于自身的缘故探索新行为，而不是直接解决问题 ...

0 0 0 2025/09/08 arXiv:1604.06057v2 sher

Confidence Estimation for Text-to-SQL in Large Language Models

文本到SQL的置信度估算旨在评估模型生成的SQL查询的可靠性，而无需获得黄金答案。我们在大型语言模型（LLMS）的背景下研究此问题，在大型语言模型（LLMS）中，通常会限制使用模型权重和梯度。我们探索黑盒和白盒置信度估计策略，评估它们对跨域文本到SQL基准测试的有效性 ...

0 0 0 2025/09/08 arXiv:2508.14056v1 zkq

SpikingBrain Technical Report: Spiking Brain-inspired Large Models

基于主流 Transformer 的大型语言模型面临着主要效率瓶颈：训练计算的量表尺度是序列长度的二次尺度，并且推理记忆线性增长，从而限制了长篇文化处理。在非NVIDIA平台上建立大型模型也为稳定有效的培训带来了挑战。为了解决这个问题，我们介绍了Spikingbrain，这是一个由大脑启发的模型家族，旨在有效的长期培训和推理 ...

0 0 0 2025/09/08 arXiv:2509.05276v1 odenkkk

A Law of Next-Token Prediction in Large Language Models

大型语言模型（LLMS）已在各个应用程序领域中广泛使用，但是它们的黑盒性质在理解这些模型如何在内部处理以做出预测方面面临着重大挑战。在本文中，我们介绍了一项精确和定量的法律，该法律通过预先训练的LLM中的中间层来控制上下文化 Token 嵌入的学习，以进行下一个预测。我们的发现表明，从最低层到最高层，每层层都同样有助于增强预测准确性 - 在各种各样的开源LLM中观察到的普遍现象，建立在诸如 Tra ...

0 0 0 2025/09/08 arXiv:2408.13442v3 15966829631

CliMB: An AI-enabled Partner for Clinical Predictive Modeling

尽管具有巨大的希望和持续的技术进步，但人工智能（AI）的现实应用程序仍然有限。我们将其归因于“域专家 -  ai-conundrum”：而诸如临床医生科学家等领域专家应该能够建立诸如风险评分之类的预测模型，但它们在访问先知（SOTA）工具方面遇到了重大障碍。尽管已经提出了自动化机器学习（AUTOML）作为临床预测建模的合作伙伴，但需要满足许多其他要求，以使临床科学家可以使用机器学习 ...

0 0 0 2025/09/08 arXiv:2410.03736v2 waterfall666

ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents

自主Web代理求解复杂的浏览任务，但是现有的基准仅衡量代理是否完成任务，忽略它是否安全或以某种方式企业可以信任。为了将这些代理集成到关键的工作流程中，安全性和可信度（ST）是采用的前提条件。我们介绍了\ textbf {\ textsc {st-webagentbench}}，这是一个可配置且易于扩展的套件，用于在现实的企业方案中评估Web代理ST ...

0 0 0 2025/09/08 arXiv:2410.06703v5 15927557235

Mobile-Agent-v3: Fundamental Agents for GUI Automation

本文介绍了Gui-Owl，这是一种基础GUI代理模型，在台面和移动环境的十个GUI基准上，在开源端到端模型之间实现了最先进的性能，涵盖了接地，问题答案，计划，计划，决策，决策和程序知识。 GUI-OWL-7B在Androidworld上达到66.4和29 ...

0 0 0 2025/09/08 arXiv:2508.15144v2 13366395289

Reinforcement Learning with Rubric Anchors

从可验证的奖励（RLVR）中学习的强化学习已成为增强大型语言模型（LLMS）的强大范式，以Openai的O系列成功为例。在RLVR中，奖励是从可验证的信号中得出的，例如在代码生成中通过单元测试或在数学推理中匹配正确答案。虽然有效，但此要求很大程度上将RLVR限制在具有可自动可检查结果的域 ...

0 0 0 2025/09/08 arXiv:2508.12790v1 ly123456

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）