随着大型语言模型(LLM)已变得越来越多地计算和记忆密集型,参数有效的微调(PEFT)方法现在是微调LLM的常见策略。流行的PEFT方法是低级适配器(LORA),它为选定的层增添了可训练的低级“适配器”。每个适配器由低级矩阵乘积组成,乘以等级依赖性因子 ...
尽管使用更快、更深的卷积神经网络在单图像超分辨率的准确性和速度方面取得了突破,但一个核心问题在很大程度上仍未解决:当我们以大的放大因子进行超分辨率时,如何恢复更精细的纹理细节?基于优化的超分辨率方法的行为主要由目标函数的选择驱动。最近的工作主要集中在最小化均方重建误差。由此产生的估计具有较高的峰值信噪比,但它们通常缺乏高频细节,并且在感知上不令人满意,因为它们无法匹配更高分辨率下预期的保真度... ...
强化学习(RL)在顺序决策任务中显示出令人印象深刻的结果。同时,出现了大型语言模型(LLM)和视觉模型(VLM),在多模式理解和推理方面表现出了令人印象深刻的能力。这些进步导致了将LLM和VLMS整合到RL的研究激增 ...
扩散生成模型在图像和视频生成等视觉域中表现出了很大的成功。他们最近还成为机器人技术中的一种有前途的方法,尤其是在机器人操作中。扩散模型利用了一个概率框架,他们以对高维输入和输出空间进行建模多模式分布以及鲁棒性的能力而脱颖而出 ...
为了最大程度地减少面部识别年龄变化的影响,先前的工作要么通过最大程度地减少身份和年龄相关特征之间的相关性来提取与身份相关的歧视性特征,称为年龄不变的面部识别(AIFR),或者通过将不同年龄组的面部转化为同一年龄组,称为面部年龄段(称为面部年龄范围),称为年龄变化,称为面部年龄段,称为面部年龄段(fas)(fas)(fas);但是,前者缺乏模型解释的视觉结果,而后者则遭受了损害下游识别的伪影。因此, ...
使用大型语言模型(LLM)来处理复杂的任务是一个显着的趋势,例如需要一系列操作以及与工具和外部环境进行动态交互的任务 ...
多模式大语言模型(MLLMS)实现了出色的性能,以实现细粒度的像素级理解任务。但是,所有作品都在很大程度上依赖于额外的组件,例如视觉编码器(剪辑),分割专家,导致高系统复杂性和限制模型缩放。在这项工作中,我们的目标是在不引入额外组件的情况下探索高度简化的MLLM ...
近年来,无监督的单眼深度和自我运动估计引起了广泛的研究关注。尽管当前的方法达到了高度最高的准确性,但由于使用单眼序列训练固有的规模歧义,它们通常无法学习真实规模的指标。在这项工作中,我们解决了这个问题,并提出了Dynadepth,这是一个新颖的量表感知框架,该框架整合了视觉和IMU运动动态的信息 ...