近年来,使用深层卷积神经网络(DCNN),面部验证系统的性能显着改善。典型的面部验证管道包括训练一个深层网络,以使用倒数第二层输出作为特征描述符,并在给定面部图像的情况下,使用倒数第二层输出作为特征描述符,并生成余弦相似性得分。 SoftMax损耗函数不会优化功能,以使正对具有较高的相似性评分,而负面对的相似性得分较低,从而导致性能差距 ...
0 0 0 2025/04/06 arXiv:1703.09507v3 ReLU
尽管接受了大量数据的培训,但最先进的视频对齐模型对于视频字幕上语义上可视的对比度变化并不强大。我们的工作通过确定广泛的对比度未对准(例如更换实体,行动和翻转事件顺序)来解决这一问题,该订单模型应与之稳健。为此,我们介绍了Videocon,这是一个由大型语言模型构建的视频语言对齐数据集,该数据集生成了合理的对比视频字幕,并解释了原始视频和对比度视频字幕之间的差异 ...
0 0 0 2025/04/06 arXiv:2311.10111v1 2889932594
面部检测是许多面部识别和面部分析系统的关键第一步。早期的面部检测方法主要基于基于从本地图像区域提取的手工制作的特征(例如HAAR级联反应和定向梯度的直方图)构建的分类器。但是,这些方法不足以实现不受控制环境的图像的高度准确性 ...
0 0 0 2025/04/06 arXiv:2103.14983v2 ReLU
大型语言模型(LLM)在工具学习中表现出了显着的功能。在实际情况下,用户查询通常是模棱两可和不完整的,需要有效的澄清。但是,现有的交互式澄清方法面临两个关键局限性:依赖手动构造的数据集以及在多转移澄清过程中缺乏误差校正机制 ...
0 0 0 2025/04/06 arXiv:2503.01940v1 liuweitang
在不利天气条件下的图像恢复对各种计算机视觉应用引起了重大兴趣。最近的成功方法取决于深度神经网络建筑设计的当前进展(例如 ...
0 0 0 2025/04/06 arXiv:2207.14626v2 Veggie
我们为接地视频字幕生成提出了一个新任务,数据集和模型。此任务统一了视频中的字幕和对象接地,在该视频中,标题中的对象是通过暂时一致的边界框在视频中接地的。我们介绍以下贡献 ...
0 0 0 2025/04/06 arXiv:2411.07584v1 2889932594
鉴于起源(O),目的地(D)和出发时间(T)(t),旅行时间估计(TTE)中的不确定性量化旨在估算旅行时间的置信区间。准确地量化这种不确定性需要产生最可能的路径并评估沿路径的旅行时间不确定性。这涉及两个主要挑战:1)预测一条与地面真理保持一致的路径,以及2)对每个细分市场中旅行时间在不同条件下的总体不确定性的影响进行建模 ...
0 0 0 2025/04/06 arXiv:2408.12809v2 jackson118
视频文本检索在多模态研究中发挥着重要作用,clip (对比语言图像预训练)是一种图像语言预训练模型,它展示了从网络收集的图像文本数据集中学习视觉概念的强大功能。在本文中,clip4clip模型 ...
0 0 0 2025/04/06 arXiv:2104.08860v2 betask

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)