一译 —— 文档和论文翻译、对照阅读、讨论和社区

Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards

大型语言模型（LLM）在复杂的推理中表现出巨大的希望，并具有可验证的奖励（RLVR）是一个关键增强策略。但是，一个普遍的问题是``浅表自我反省''，其中模型无法牢固地验证自己的输出。我们引入了Rise（通过自我验证加强推理），这是一个旨在解决此问题的新型在线RL框架 ...

0 0 0 2025/06/12 arXiv:2505.13445v1 chrisxiong

OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents

由多模式大型语言模型提供动力的自主图形用户界面（GUI）代理表现出巨大的希望。但是，一个批判但未得到充实的问题仍然存在：过度执行，代理商以完全自主的方式执行任务，而没有充分评估其行动信心以损害适应性的人类代理协作。这在复杂的场景中带来了重大风险，例如涉及模棱两可的用户说明，意外中断和环境劫持的风险 ...

0 0 0 2025/06/12 arXiv:2503.16465v1 momoom

SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

视频修复在保持忠诚度方面构成了非平凡的挑战，同时从野外未知的降解中恢复了时间一致的细节。尽管基于扩散的恢复的最新进展，但这些方法通常面临生成能力和采样效率的限制。在这项工作中，我们提出了SEEDVR，这是一种扩散 Transformer ，旨在处理任意长度和分辨率的现实世界视频恢复 ...

0 0 0 2025/06/12 arXiv:2501.01320v4 viczn

AI-Newton: A Concept-Driven Physical Law Discovery System without Prior Physical Knowledge

人类科学发现的当前局限性需要新的研究范式。尽管人工智能的进步（AI）提供了一个非常有希望的解决方案，但使AI模仿人类的科学发现仍然是一个开放的挑战。为了解决这个问题，我们提出了AI-Newton，这是一个概念驱动的发现系统，能够自主从原始数据中得出物理定律 - 无需监督或事先物理知识 ...

0 0 0 2025/06/12 arXiv:2504.01538v1 kkkk

Generative AI for Validating Physics Laws

我们介绍了生成人工智能（AI），以实证验证物理的基本定律，重点是Stefan-Boltzmann法律，将恒星温度和光度联系起来。我们的方法模拟了每个恒星的假设温度状态下的反事实仪性，并迭代地完善了深度学习体系结构中的温度 - 劳度关系。我们使用GAIA DR3数据，发现温度对亮度的影响随着恒星半径的增加而增加，并且与理论预测一致，并随着绝对幅度的减小而降低 ...

0 0 0 2025/06/12 arXiv:2503.17894v2 kkkk

Are We Solving a Well-Defined Problem? A Task-Centric Perspective on Recommendation Tasks

推荐系统（RECSYS）利用用户交互历史记录来预测和建议相关项目，从而塑造各个域之间的用户体验。尽管许多研究采用了一般问题定义，即 ...

0 0 0 2025/06/12 arXiv:2503.21188v2 zhuyuhe

Generalization error bounds for iterative learning algorithms with bounded updates

本文探讨了迭代学习算法的概括特征，并采用信息理论技术的非convex损失功能有界的更新。我们的关键贡献是对这些算法具有有限更新的概括误差的新颖界限。我们的方法介绍了两个主要新颖性：1）我们将相互信息重新制定为更新的不确定性，提供了新的观点，2）我们使用差异分解技术来分解迭代信息，从而允许更简单的代孕过程 ...

0 0 0 2025/06/12 arXiv:2309.05077v3 Daenerays

Multi-lingual Evaluation of Code Generation Models

我们在评估代码生成模型上介绍了新的基准：MBXP和多语言HumaneVal和Mathqa-X。这些数据集涵盖了10种编程语言，并使用可扩展的转换框架生成，该框架将原始Python数据集的提示和测试用例转移到目标语言中的相应数据中。使用这些基准测试，我们能够以多种语言方式评估代码生成模型的性能，并发现了语言模型在室外语言上的概括能力，多语言模型的优势比单语语言相对于单语语言，促使几乎没有射击的能力促 ...

0 0 0 2025/06/12 arXiv:2210.14868v3 15966829631

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）