减轻奖励黑客 - 由于其学习目标中的缺陷或错误的特定问题,AI系统行为不当 - 造成了构建能力和调整模型的关键挑战。我们表明,我们可以通过使用另一个观察该模型的经济链(COT)推理的LLM来监视诸如OpenAI O3-Mini之类的前沿推理模型,以便在代理编码环境中进行奖励黑客入侵。 COT监视可以比单独监测剂的动作和输出更有效,我们进一步发现,比O3-Mini(即GPT-4O)弱的LLM可以有效 ...
0 0 0 2025/04/21 arXiv:2503.11926v1 translater
视频生成的最新进展显示出了生成未来场景的希望,这对于自动驾驶和体现智能的计划和控制至关重要。但是,现实世界的应用要求在视觉上的合理预测中要求更多。他们需要基于明确定义的边界条件的对象运动的推理,例如初始场景图像和部分对象运动。我们称此能力边界条件运动推理 ...
0 0 0 2025/04/21 arXiv:2412.00547v3 orangelcx
随着城市化的加速,现代的城市交通系统变得越来越复杂,导致交通异常。这些异常不仅包含常见的交通拥堵,还包括更具挑战性的问题,例如幻影交通拥堵,交叉路口僵局和事故责任分析,它们严重影响交通流量,车辆安全性和整体运输效率。目前,现有解决方案主要依赖于交通警察或基于人工智能的检测系统的手动干预 ...
0 0 0 2025/04/21 arXiv:2503.01632v1 lunwenfanyi
大型语言模型(LLM)的奖励信号使用方面的最新进展是显着的。但是,将奖励信号转移到多模式领域时,存在重大挑战,包括劳动密集型注释,对一步奖励的过度依赖和评估不足。为了解决这些问题,我们提出了SVIP,这是一种新型的方法,可以自动训练阶梯级多维链链〜(COT)奖励模型 ...
0 0 0 2025/04/21 arXiv:2504.06606v1 iris
尽管最初是为了自然语言处理而引入的,但 Transformer 仍被广泛用作计算机视觉中的通用骨干。最近,长短期记忆 (LSTM) 已扩展到可扩展且高性能的架构 - xLSTM - 它通过指数门控和可并行矩阵记忆结构克服了长期存在的 LSTM 限制。在本报告中,我们介绍了 Vision-LSTM (ViL),它是 xLSTM 构建块对计算机视觉的适应 ...
0 0 0 2025/04/21 arXiv:2406.04303v3 zfk666
人工智能研究的长期目标是构建能够用自然语言与人类交流、感知环境并执行现实世界任务的智能代理。视觉和语言导航((VLN))是实现这一目标的基础性跨学科研究课题,并受到自然语言处理、计算机视觉、机器人和机器学习社区越来越多的关注。在本文中,我们回顾了vln这一新兴领域的当代研究 ...
0 0 0 2025/04/21 arXiv:2203.12667v3 17562023920
自从Jetsons Cartoon系列想象着一个专心的机器人助手介导的休闲生活之前,可以进行自然语言指导的机器人一直是一个梦想。这是一个顽固的梦想。但是,视觉和语言方法的最新进展在紧密相关的领域取得了令人难以置信的进步 ...
0 0 0 2025/04/21 arXiv:1711.07280v3 WuYP
漫画生产行业需要具有高精度,效率,上下文一致性和灵活控制的基于参考的系列艺术色彩。漫画页面通常涉及各种字符,对象和背景,这会使着色过程复杂化。尽管在图像生成的扩散模型中取得了进步,但其在线艺术色彩仍然有限,面临着与处理广泛的参考图像,耗时的推断和灵活控制有关的挑战 ...
0 0 0 2025/04/21 arXiv:2504.12240v1 suxuefeng

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)