奖励模型(RMS)是现有的训练后方法核心,旨在通过在微调过程中提供反馈信号来使LLM输出与人类价值保持一致。但是,现有的RMS难以捕获细微的,特定于用户的偏好,尤其是在有限的数据和跨不同领域的情况下。因此,我们介绍了PERSRM-R1,这是第一个基于推理的奖励建模框架,专门旨在识别和代表仅一个或几个个人示例中的个人因素 ...
大型语言模型(LLM)的代理通过迭代推理,探索和工具使用来解决复杂的任务,该过程可能会导致长期昂贵的上下文历史。虽然诸如OpenHANDS或光标或光标之类的最先进的软件工程(SE)代理使用基于LLM的摘要来解决此问题,但与仅省略较旧的观察值相比,增加的复杂性是否具有切实的性能优势。我们在五种不同模型配置中验证的SWE基础上的SWE代理中对这些策略进行了系统的比较 ...
文本驱动的视频编辑正在迅速发展,但由于缺乏专用的视频质量评估(VQA)模型,其严格的评估仍然具有挑战性,能够辨别编辑质量的细微差别。为了解决这个关键的差距,我们介绍了TDVE-DB,这是一种用于文本驱动视频编辑的大规模基准数据集。 TDVE-DB由3,857个编辑视频组成,这些视频由12个编辑类别中的12种不同模型产生,并在三个重要的维度上以173,565个人类主观评分注释 ...
先前的研究调查了多模式大语言模型(MLLM)通过将其解释为视频来理解3D场景。这些方法通常取决于全面的3D数据输入,例如点云或重建的鸟类视图(BEV)图。在我们的研究中,我们通过直接从视频数据中提高MLLM在3D空间中理解和推理的能力来提高这一领域,而无需额外的3D输入 ...
我们引入了一个基于 Transformer 的神经网络,以从地球静止卫星图像大规模生成高分辨率(3km)合成雷达反射率。这项工作旨在增强对高影响天气事件的短期对流尺度预测,并有助于对美国的数值天气预测进行数据同化。与卷积方法有限的卷积方法相比,我们的结果表明,各种复合反射率阈值的清晰度和更高精度的提高 ...
在许多领域,从医疗保健和经济学到公共政策,从观察数据中估算治疗效果(TE)是一项关键但复杂的任务。尽管机器学习和因果推断的最新进展已经产生了强大的估计技术,但由于需要深入的因果假设,调整策略和模型选择,其采用仍然有限。在本文中,我们介绍了CATE-B,这是一种开源的副驾驶系统,该系统在代理框架内使用大型语言模型(LLM),以指导用户完成治疗效果估算的端到端过程 ...
While controllable generative models for images and videos have achieved remarkable success, high-quality models for 3D scenes, particularly in unbounded scenarios like autonomous driving, remain unde ...
就像面临艰苦考试问题的学生一样,大型语言模型有时会猜测不确定的时候,产生合理但不正确的陈述,而不是承认不确定性。这种“幻觉”即使在最先进的系统和破坏信任中也存在。我们认为语言模型幻觉是因为培训和评估程序奖励猜测不确定性,并且我们分析了现代培训管道中幻觉的统计原因 ...