一译 —— 文档和论文翻译、对照阅读、讨论和社区

Learning by Cheating

基于视觉的城市驾驶非常困难。自治系统需要学会感知世界并在其中行动。我们表明，可以通过将其分解为两个阶段来简化这个具有挑战性的学习问题 ...

0 0 0 2025/05/19 arXiv:1912.12294v1 小胖猴

Proximal Policy Optimization Algorithms

我们提出了一种新的策略梯度方法系列，用于增强学习，该方法通过与环境相互作用进行采样数据，并使用随机梯度上升来优化“替代”目标函数。尽管标准策略梯度方法每个数据样本执行一个梯度更新，但我们提出了一个新的目标函数，该功能可以实现多个Minibatch更新。我们称之为近端策略优化（PPO）的新方法具有信任区域策略优化（TRPO）的一些好处，但是它们实施更简单，更一般并且具有更好的样本复杂性（从经验上）  ...

0 0 0 2025/05/19 arXiv:1707.06347v2 lee9470

On-Chip Learning via Transformer In-Context Learning

自回归的仅解码器 Transformer 已成为可扩展序列处理和生成模型的关键组成部分。但是， Transformer 的自我发挥机制需要在每个时间步骤（ Token ）从主内存的标记预测之前转移，从而严重限制了其在常规处理器上的性能。自我注意力可以看作是动态进料层，其矩阵与局部突触可塑性的结果相似 ...

0 0 0 2025/05/19 arXiv:2410.08711v1 jiangjian

Explicit Uncertainty Modeling for Video Watch Time Prediction

在视频推荐中，确定系统建议精度的关键组件是观察时间预测模块，因为用户观看视频的时间直接反映了个性化的偏好。此问题的关键挑战之一是用户的随机观察时间行为。为了提高这种不确定行为的预测准确性，现有方法表明，可以通过持续时间偏置建模来降低噪声，或者制定分配建模任务以捕获不确定性 ...

0 1 0 2025/05/19 arXiv:2504.07575v1 lee9470

Generative Regression Based Watch Time Prediction for Short-Video Recommendation

观看时间预测（WTP）已成为短视频推荐系统中的一项关键任务，旨在概括用户兴趣。预测用户的视频观看时间经常遇到挑战，包括值域过宽和数据分布不平衡，这可能会在直接回归观看时间时导致显着的偏差。最近的研究试图通过将连续观看时间估计转换为序数分类任务来解决这些问题 ...

0 0 0 2025/05/19 arXiv:2412.20211v3 lee9470

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

尽管视频生成最近取得了进展，但制作遵守物理定律的视频仍然是一个重大挑战。传统的基于扩散的方法由于依赖数据驱动的近似值而难以推断不见的身体状况（例如，速度）。为了解决这个问题，我们建议整合符号推理和增强学习，以在视频生成中实现身体一致性 ...

0 0 0 2025/05/19 arXiv:2504.15932v1 Zhiyu_Yin

OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities

长期以来，人工智能（AI）在网络安全的对抗环境中竞争的前景一直被认为是AI最有影响力，最具挑战性和潜在危险的应用之一。在这里，我们展示了一种新的方法来评估AI在实现现实世界中的进攻性网络运营（OCO）策略中的进步，现代威胁参与者使用的策略。我们详细介绍了一个轻巧的操作评估框架，该框架使网络安全专家可以对与任何给定的大型语言模型（LLM）或OCO使用的AI相关的合理网络安全风险进行严格且可重复的测量 ...

0 0 0 2025/05/19 arXiv:2502.15797v1 tmylla

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

在开放世界环境中机器人操作的任务规范具有挑战性，需要与人类意图保持一致的灵活和适应性目标，并且可以通过迭代反馈发展。我们介绍了迭代关键点奖励（IKER），这是一种基于python的视觉扎根奖励功能，可作为动态任务规范。我们的框架利用VLM为多步操作任务生成和完善这些奖励功能 ...

0 0 0 2025/05/19 arXiv:2502.08643v2 veux

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）