密集的视频字幕是从未修剪视频中本地化有趣事件的任务,并为每个本地化事件制作文本描述(字幕)。密集的视频字幕上的大多数作品仅基于视觉信息,并且完全忽略了音轨。但是,尤其是音频和言语是人类观察者在理解环境方面的重要提示 ...
0 0 0 2025/05/08 arXiv:2003.07758v2 argbunint256
尽管多模式任务取得了希望的进展,但当前的大型多模型模型(LMM)倾向于相对于相关图像和人类指令幻觉不一致的描述。本文通过引入第一个大型而多样的视觉教学调谐数据集来解决此问题,该数据集被称为大规模稳健视觉(LRV) - 指导。我们的数据集包括由GPT4生成的400K视觉说明,涵盖了16个具有开放式指示和答案的视觉和语言任务 ...
0 0 0 2025/05/08 arXiv:2306.14565v4 woods
我们提出了ho​​imotion-人类对象相互作用期间人类运动预测的一种新颖方法,该方法整合了有关过去的身体姿势和以自我为中心的3D对象边界框的信息。人类运动预测在许多增强现实应用中很重要,但是大多数现有方法仅使用过去的身体姿势来预测未来的运动。 Hoimotion首先使用编码器 - 占用图卷积网络(GCN)和多层感知器,分别从身体姿势和Egentric 3D对象边界框中提取特征 ...
0 0 0 2025/05/08 arXiv:2407.02633v1 sally2016
从人类反馈(RLHF)中学习的强化是一种有前途的解决方案,可以使大型语言模型(LLMS)更加紧密地与人类价值观保持一致。由于其成本效率和可伸缩性,因此广泛采用了从其他模型获得偏好数据的非政策偏好优化。但是,非政策优先优化通常会遇到数据收集策略与目标策略之间的分布差距,从而导致次优优化 ...
0 0 0 2025/05/08 arXiv:2406.11827v2 byron_
在本文中,我们展示了大型语言模型(LLM)令人惊讶的能力:仅给出输入特征名称和预测任务的描述,它们就能够选择最具预测性的特征,其性能可与数据科学的标准工具相媲美。值得注意的是,这些模型在各种查询机制中都表现出了这种能力。例如,我们零样本提示 LLM 输出某个特征的数值重要性得分(例如, ...
0 0 0 2025/05/08 arXiv:2407.02694v2 nrc
多目标优化(MOO)中的Pareto前分析,即找到各种各样的Pareto最佳解决方案,这具有挑战性,尤其是需要培训神经网络的昂贵目标 ...
0 0 0 2025/05/08 arXiv:2402.18213v3 xjwit
大型视力语言模型(LVLM)中缓解幻觉仍然是一个开放的问题。最近的基准测试并未解决开放式的自由形式响应中的幻觉,我们称其为“ I型幻觉”。取而代之的是,他们专注于幻觉响应非常具体的问题格式(通常是针对特定对象或属性的多项选择回答),我们称其为“ II型幻觉” ...
0 0 0 2025/05/08 arXiv:2405.05256v2 woods
自2019年GPT2--1.5B发明以来,大型语言模型(LLM)已从专用模型转变为多功能基础模型。但是,LLM表现出令人印象深刻的零射击能力,需要对本地数据集进行微调和大量的部署资源 ...
0 0 0 2025/05/08 arXiv:2408.10691v2 IQ_QI

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)