基于视觉的城市驾驶非常困难。自治系统需要学会感知世界并在其中行动。我们表明,可以通过将其分解为两个阶段来简化这个具有挑战性的学习问题 ...
我们提出了一种新的策略梯度方法系列,用于增强学习,该方法通过与环境相互作用进行采样数据,并使用随机梯度上升来优化“替代”目标函数。尽管标准策略梯度方法每个数据样本执行一个梯度更新,但我们提出了一个新的目标函数,该功能可以实现多个Minibatch更新。我们称之为近端策略优化(PPO)的新方法具有信任区域策略优化(TRPO)的一些好处,但是它们实施更简单,更一般并且具有更好的样本复杂性(从经验上) ...
自回归的仅解码器 Transformer 已成为可扩展序列处理和生成模型的关键组成部分。但是, Transformer 的自我发挥机制需要在每个时间步骤( Token )从主内存的标记预测之前转移,从而严重限制了其在常规处理器上的性能。自我注意力可以看作是动态进料层,其矩阵与局部突触可塑性的结果相似 ...
在视频推荐中,确定系统建议精度的关键组件是观察时间预测模块,因为用户观看视频的时间直接反映了个性化的偏好。此问题的关键挑战之一是用户的随机观察时间行为。为了提高这种不确定行为的预测准确性,现有方法表明,可以通过持续时间偏置建模来降低噪声,或者制定分配建模任务以捕获不确定性 ...
观看时间预测(WTP)已成为短视频推荐系统中的一项关键任务,旨在概括用户兴趣。预测用户的视频观看时间经常遇到挑战,包括值域过宽和数据分布不平衡,这可能会在直接回归观看时间时导致显着的偏差。最近的研究试图通过将连续观看时间估计转换为序数分类任务来解决这些问题 ...
尽管视频生成最近取得了进展,但制作遵守物理定律的视频仍然是一个重大挑战。传统的基于扩散的方法由于依赖数据驱动的近似值而难以推断不见的身体状况(例如,速度)。为了解决这个问题,我们建议整合符号推理和增强学习,以在视频生成中实现身体一致性 ...
长期以来,人工智能(AI)在网络安全的对抗环境中竞争的前景一直被认为是AI最有影响力,最具挑战性和潜在危险的应用之一。在这里,我们展示了一种新的方法来评估AI在实现现实世界中的进攻性网络运营(OCO)策略中的进步,现代威胁参与者使用的策略。我们详细介绍了一个轻巧的操作评估框架,该框架使网络安全专家可以对与任何给定的大型语言模型(LLM)或OCO使用的AI相关的合理网络安全风险进行严格且可重复的测量 ...
A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards
在开放世界环境中机器人操作的任务规范具有挑战性,需要与人类意图保持一致的灵活和适应性目标,并且可以通过迭代反馈发展。我们介绍了迭代关键点奖励(IKER),这是一种基于python的视觉扎根奖励功能,可作为动态任务规范。我们的框架利用VLM为多步操作任务生成和完善这些奖励功能 ...