目前的物体识别训练流程在进行数据增强时忽略了色调抖动,因为它不仅会带来不利于分类的外观变化,而且在实践中实现效率低下。在本研究中,我们研究了视频识别背景下色调方差的影响,并发现这种方差是有益的,因为静态外观在包含运动信息的视频中不太重要。基于这一观察,我们提出了一种用于视频识别的数据增强方法,称为运动相干增强(MCA),该方法引入视频中的外观变化,并隐式鼓励模型优先考虑运动模式,而不是静态外观 . ...
最近,数据增强已成为视觉识别任务的现代培训食谱的重要组成部分。但是,尽管有效性,但很少探索视频识别的数据增强。很少有用于视频识别的现有增强食谱通过将相同的操作应用于整个视频框架来天真地扩展图像增强方法 ...
映射具有不同暴露于高动态范围(HDR)的低动态范围(LDR)图像,由于对象运动或摄像机搅拌引起的幽灵,在动态场景上仍然无动于衷和具有挑战性。随着深度神经网络(DNN)的成功,已经提出了几种基于DNN的方法来减轻幽灵,当运动和饱和度发生时,它们无法产生批准的结果。为了在各种情况下生成视觉上令人愉悦的HDR图像,我们提出了一个称为Hyhdrnet的混合HDR DeGhosting网络,以了解参考图 ...
数码相机和手机使我们能够方便地记录宝贵的时刻。尽管数字图像质量不断得到改善,但拍摄数字屏幕的高质量照片仍然具有挑战性,因为这些照片通常被Moiré图案污染,这是相机传感器的像素网格与设备屏幕之间的干扰的结果。 Moiré图案会严重损害照片的视觉质量 ...
我们建议使用移动GUI任务自动化代理V-Droid。与以前利用大型语言模型(LLM)作为发电机直接生成操作的移动代理不同,V-Droid在做出最终决策之前使用LLMS作为验证者来评估候选行动。为了实现这种新颖的范式,我们介绍了一个综合框架,用于构建验证者驱动的移动剂:离散的动作空间构建,再加上仅预填充的工作流程,以加速验证过程,配对进度偏好培训,以显着增强了验证能力,可衡量的验证能力,并有效地缩放 ...
基金会模型(FMS)很好地适应了具有微调和联合学习(FL)的特定领域或任务,从而有可能使用智障本地数据对FMS进行隐私性微调。对于FMS的联合微调,我们考虑具有最大数十亿个小型参数尺寸的FMS,最大为10亿个数字,被称为“ evice FMS(ODFM”),可以在设备上进行推理以进行推理,但只能通过参数有效方法进行微调。在我们的工作中,我们通过提出一种使用异质性低级别近似值(Loras)(即Het ...
知识图在众多人工智能任务中发挥着至关重要的作用,但它们经常面临不完整性的问题。在本研究中,我们探索利用大型语言模型(LLM)来完成知识图谱。我们将知识图中的三元组视为文本序列,并引入一种称为知识图谱LLM(KG-LLM)的创新框架来对这些三元组进行建模 ...
与标准动态范围(SDR)视频相比,高动态范围(HDR)视频可以代表更大的亮度和色彩,并且正迅速成为行业标准。与传统SDR视频相比,HDR视频具有更具挑战性的捕获,传输和显示要求。凭借其更大的深度,高级的电流传输功能以及更广泛的颜色范围,因此需要专门设计的视频质量算法,这些算法是专门设计的,以预测HDR视频的质量 ...