我们介绍了Unitoken,这是一种自动回归生成模型,该模型通过离散和连续表示的组合来编码视觉输入,从而使统一的视觉理解和图像生成任务无缝集成。与以前依赖单方面视觉表示的方法不同,我们统一的视觉编码框架既捕获了高级语义和低级细节,又提供了多维信息,从而使异质任务具有基于其内在特征的选择性同化域特有的知识。通过深入实验,我们发现了开发能够视觉理解和图像产生的统一模型的关键原理 ...
0 0 0 2025/04/10 arXiv:2504.04423v1 tonyhehahaha
参数有效的微调(PEFT)已被广泛用于域适应性,由于其简单性和有效性,洛拉(Lora)是最突出的方法之一。但是,在多任务学习(MTL)方案中,洛拉(Lora)倾向于通过将不同任务的稀疏高维特征投射到相同密集的低维内在空间中,从而掩盖任务之间的区别。这导致了洛拉及其变体的任务干扰和次优性能 ...
0 0 0 2025/04/10 arXiv:2410.09437v3 zjh111
对配对文本图像数据的网络尺度培训正变得越来越重要,这是多模式学习的核心,但受到野外数据集的高度嘈杂性质的挑战。标准数据过滤方法成功地删除了错匹配的文本图像对,但允许语义相关但高度抽象或主观文本。这些方法缺乏隔离最具体样品的细粒度能力,这些样本为嘈杂的数据集提供了最强的信号 ...
0 0 0 2025/04/10 arXiv:2403.01306v3 zl1994
科学图表是有效地传达研究结果的重要工具,是传达信息和揭示数据模式的重要媒介。随着科学和技术的快速发展,加上大数据时代的出现,科学研究数据的数量和多样性飙升,从而增加了图表的数量和多样性。这种趋势给研究人员带来了新的挑战,特别是在有效,准确地为这些图表生成适当的标题以更好地传达其信息和结果时 ...
0 0 0 2025/04/10 arXiv:2406.17047v1 zl1994
图像文本对的可用性越来越大,很大程度上推动了视觉基础模型的快速发展。但是,这些数据集的广泛规模不可避免地引入了数据质量的显着差异,这可能会对模型性能产生不利影响。这突出了数据过滤的关键作用,不仅是为了提高培训效率,而且还提高了整体数据质量 ...
0 0 0 2025/04/10 arXiv:2312.06726v4 zl1994
在处理较长的上下文时,大型语言模型面临着重大的计算和内存挑战。在推断过程中,对钥匙值(KV)缓存的有效管理(存储自回归产生的中间激活)对于减少内存开销和提高计算效率至关重要。传统的 Token 级有效的KV缓存方法忽略了语义信息,独立对待 Token 而不考虑其语义关系 ...
0 0 0 2025/04/10 arXiv:2504.00970v1 remaper
该报告介绍了2024 NICE的主题1零拍图像字幕的解决方案:用于零拍图像字幕评估的新边界。与NICE 2023数据集相反,这一挑战涉及人类在标题样式和内容上有显着差异的人类注释。因此,我们通过检索增强和字幕分级方法有效地增强了图像标题 ...
0 0 0 2025/04/10 arXiv:2404.12739v2 zl1994
随着深度学习的出现,视频文本检索的新兴领域见证了重大的进步。但是,由于视频的文本描述不足,匹配文本和视频的挑战仍然存在。两种方式之间的大量信息差距阻碍了对视频的全面理解,从而导致了模棱两可的检索结果 ...
0 0 0 2025/04/10 arXiv:2502.02885v3 2889932594

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)