视觉提问(VQA)(VQA)已成为多种应用程序中的关键用例,以帮助用户体验,尤其是在视觉语言模型(VLMS)在零摄像中取得良好结果之后。但是,在实际设置中使用标准化框架评估不同的VLM为应用程序要求仍然具有挑战性。本文介绍了一个综合框架,用于评估在实际设置中针对VQA任务量身定制的VLM ...
0 0 0 2025/04/23 arXiv:2409.09269v3 zl1994
最近基于扩散的人类图像动画技术在合成视频方面取得了令人瞩目的成功,这些视频忠实地遵循给定的参考身份和一系列所需的运动姿势。尽管如此,仍然存在两个限制:i(i),需要额外的参考模型来将身份图像与主视频分支对齐,这显着增加了优化负担和模型参数; ii)生成的视频通常时间较短(例如 ... ...
0 0 0 2025/04/23 arXiv:2406.01188v1 ForrestPi
最近,基于视频的大型语言模型(基于视频的LLM)在各种视频理解任务中取得了令人印象深刻的表现。但是,这种快速的进步引起了严重的隐私和安全问题,特别是关于在基于视频的LLM的自动注释中未经授权使用的个人视频数据的使用。然后可以使用这些未经授权的注释的视频文本对来改善下游任务的性能,例如文本到视频生成 ...
0 0 0 2025/04/23 arXiv:2503.21824v1 woodman
视觉问答((VQA))任务提出8年后,准确性仍然是自动评估的主要指标。迄今为止,VQA精度在iid评估设置中一直有效。然而,我们的社区正在经历向开放式生成模型和ood评估的转变... ...
0 0 0 2025/04/23 arXiv:2310.02567v2 meimei0211
在过去的几十年中,基于人类主观偏好的图像质量评估(IQA)进行了广泛的研究。但是,随着通信协议的开发,机器的视觉数据消耗量逐渐超过了人类。对于机器,偏好取决于下游任务,例如分割和检测,而不是视觉吸引力 ...
0 0 0 2025/04/23 arXiv:2503.10078v1 15370090936
评估理论表明,情感是由对事件的主观评估产生的,称为评估。评估的分类学非常多样化,通常以李克特量表给予评分,以在体验者通知者或阅读器通知者范式中注释。本文将GPT-4研究为不同及时设置中21个特定评估评级的读者通知者,旨在评估和改善其性能与人类注释者相比 ...
0 0 0 2025/04/23 arXiv:2503.16883v2 woodman
从放射学报告中提取结构化标签已被用于创建视觉模型,以同时检测几种类型的异常。但是,现有作品主要集中在胸部地区。由于更复杂的解剖结构和腹部的病理范围更广泛,因此很少有人研究腹部放射学报告 ...
0 0 0 2025/04/23 arXiv:2503.13330v1 woodman
确保与个人信息相关的数据实践的透明度是《一般数据保护法规》(GDPR)的基本要求,特别是第13和第14条规定的规定。但是,由于隐私政策语言的复杂性和可变性,评估规模的合规性仍然是一个挑战。手动审核是资源密集型且不一致的,而现有的自动化方法缺乏捕获细微的透明度披露所需的粒度 ...
0 0 0 2025/04/23 arXiv:2503.10727v1 woodman

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)