在本文中,我们研究了代码集成推理,其中模型在必要时生成代码,并通过代码解释器执行反馈来整合反馈。为了获得此功能,模型必须学习何时以及如何有效使用外部代码工具,该工具由工具增强的加固学习(RL)通过交互式学习支持。尽管有好处,但具有工具增强的RL仍可能会遭受学习动态中潜在的不稳定 ...
0 0 0 2025/06/06 arXiv:2505.24480v1 chrisxiong
教学视频是通过从视频中的音频信号中提取自动语音识别系统(ASR)的字幕来学习文本视频甚至多模式表示的常见来源。但是,与人类通知的标题相反,语音和字幕自然与视频的视觉内容有所不同,因此仅提供嘈杂的监督。结果,大规模无注释的网络视频培训数据仍然是培训文本视频模型的最佳选择 ...
0 0 0 2025/06/06 arXiv:2310.04900v2 2889932594
我们介绍了一种自动方法,用于量化文本对图像模型中的样本多样性。我们的方法利用了嵌入大型语言模型和视觉提问系统中的世界知识来识别相关的特定于特定概念的多样性轴(例如, ...
0 0 0 2025/06/06 arXiv:2410.22592v2 zhtzhtzht
3D语义占用预测的现有解决方案通常将任务视为一声3D体素的细分感知问题。这些歧视方法集中在一个步骤中学习输入和占用图之间的映射,缺乏能够逐步完善占用图的能力,以及合理的场景富有想象力的能力来完成本地区域的位置。在本文中,我们介绍了Occgen,这是一个简单而强大的生成感知模型,用于3D语义占用预测的任务 ...
0 0 0 2025/06/06 arXiv:2404.15014v1 海海海氵每
现在,生成方法产生的输出几乎与实际数据无法区分,但通常无法完全捕获数据分布。与质量问题不同,生成模型中的多样性限制在视觉上很难检测到需要评估的特定指标。在本文中,我们提请人们注意生成模型中目前缺乏多样性以及无法衡量这一点的普通指标 ...
0 0 0 2025/06/06 arXiv:2411.16171v2 zhtzhtzht
最近进化的大型推理模型(LRMS)在以长期的经过经过思维(COT)推理能力的方式解决复杂任务方面表现出了强大的表现。由于这些LRM大多是通过对正式推理任务进行培训而开发的,因此它们是否概括了推理能力以帮助减少寻求事实任务的幻觉的能力,尚不清楚和辩论。例如,DeepSeek-R1报告说,SimpleQA的性能提高了,这是一个寻求事实的基准,而OpenAI-O3则观察到更严重的幻觉 ...
0 0 0 2025/06/06 arXiv:2505.23646v1 单纯的培坡
预先训练的大语言模型(LLM)的出现彻底改变了各种自然语言处理任务。这些模型主要采用自动回归解码机制,该机制利用键值(KV)缓存来消除以前 Token 的冗余计算。然而,随着上下文的长度和批量的增加,KV缓存的内存足迹的线性扩展成为LLM部署的关键瓶颈,从而大大降低了生成速度 ...
0 0 1 2025/06/06 arXiv:2406.07056v1 hwrabbit
我们介绍了PointOdyssey,一个大规模合成数据集和数据生成框架,以培训和评估长期细粒的跟踪算法。我们的目标是通过以自然主义的方式强调长时间的视频来推进最先进的事物。为了实现自然主义的目标,我们使用现实世界动作捕获数据为可变形的角色进行了动画化,我们构建了3D场景以匹配运动捕获环境,并且我们使用通过真实视频上的结构 - 移动方式挖掘的轨迹来渲染相机的观点 ...
0 0 0 2025/06/06 arXiv:2307.15055v1 meme

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)