文本对图像模型在机器学习的演变中引入了显着的飞跃,证明了来自给定文本推出的图像的高质量综合。但是,这些强大的预告片模型仍然缺乏控制手柄,可以指导合成图像的空间特性。在这项工作中,我们引入了一种通用方法,以指导预贴的文本对图像扩散模型,并通过来自另一个域的空间图(e ...
0 0 0 2025/04/17 arXiv:2211.13752v1 likelike
参考图片分割旨在通过自然语言将引用率划分为本http url到文本和图像之间的不同数据属性,对于网络而言,良好地对齐文本和像素级特征是一项挑战。现有的方法使用预验证的模型来促进学习,但分别从验证的模型中传递了语言/视觉知识,而忽略了多模式的相应信息。受到对比的语言图像预处理(剪辑)的最新进展的启发,我们在本文中提出了一个端到端夹子驱动的参考图像分割框架(CRIS) ...
0 0 0 2025/04/17 arXiv:2111.15174v2 chengwenxuan7
现有的3D Vision语言(3D-VL)基准在评估3D-VL模型时缺乏,创建了一个“雾”,该模型掩盖了对模型功能和3D-VL任务的严格见解。由于三个关键局限性,该薄雾持续存在。首先,有缺陷的测试数据,例如接地任务中的模棱两可的参考文本,可能会产生不正确且不可靠的测试结果 ...
0 0 0 2025/04/17 arXiv:2503.22420v2 yiyi07
尽管推理模型(例如,DeepSeek R1)接受了加固学习(RL)的训练,在文本推理方面表现出色,但它们在需要结构化解决问题的场景中挣扎,例如几何推理,简洁的计算或复杂方程式求解 - 求解方案 - 在其中计算工具(例如代码解释者(CI)(CI)表现出不同的优势)表现出不同的优势 ...
0 0 0 2025/04/17 arXiv:2504.11536v1 liuweitang
引用表达分割(RES)旨在分割与描述性语言表达式相匹配的实体掩模。尽管传统的RES方法主要解决对象级接地,但现实世界的场景需要一个更通用的框架,该框架可以处理多个级别的目标粒度,例如多对象,单个对象或部分级别的引用。由于用户描述目标的多样化和细微差别的方式,这引入了巨大的挑战 ...
0 0 0 2025/04/17 arXiv:2504.01954v1 chengwenxuan7
单图像飞机是一个具有挑战性的不良恢复问题。已经提出了各种基于先前的基于学习和学习的方法。他们中的大多数都遵循经典的大气散射模型,该模型是一种基于单碎片和均匀大气介质的假设,是一种优雅的简化物理模型 ...
0 0 0 2025/04/17 arXiv:1810.02283v1 17662529688
在本文中,我们提出了一个端到端的特征融合式接触网络(FFA-NET),以直接恢复无雾图图像。 FFA-NET体系结构由三个关键组成部分组成:1)新型功能关注(FA)模块将通道的注意力与像素注意机制结合在一起,考虑到不同的频道特征包含完全不同的加权信息,而雾兹分布在不同的图像像素上不均匀。 FA不平等地处理不同的功能和像素,这为处理不同类型的信息提供了额外的灵活性,从而扩大了CNN的表示能力 ...
0 0 0 2025/04/17 arXiv:1911.07559v2 17662529688
这项工作重新审视了用于培训大型视力语言模型(LVLMS)的主导监督微调(SFT),然后加固学习(RL)范式,并揭示了一个关键发现:SFT可以通过``伪造推理路径''的IMIT IMIT of Expert Models'IMIT IMIT诱导随后的RL。尽管这些路径可能类似于RL模型的本地推理路径,但它们通常涉及延长,犹豫,信息较少的步骤和不正确的推理。为了系统地研究这种效果,我们引入了VLAA- ...
0 0 0 2025/04/17 arXiv:2504.11468v1 Leonliu022

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)