文本对象重新识别(REID)旨在通过文本描述搜索感兴趣的身份的行人图像。由于丰富的模式内变化和明显的模式间间隙,这是具有挑战性的。现有作品通常忽略了两种方式之间特征粒度的差异,即 ...
0 0 0 2025/04/23 arXiv:2207.07802v1 gonghaibin
在目标域上学习算法的域自适应性能是其源域误差的函数和这两个域的数据分布之间的差异度量。我们在NLP任务的背景下介绍了各种基于距离的度量的研究,该研究表征了基于样本估计的域之间的差异。我们首先进行分析实验,以表明这些距离测量中的哪些可以最好地将样品与同一域与不同领域区分开,并且与经验结果相关 ...
0 0 0 2025/04/23 arXiv:2001.04362v3 15966829631
任意样式转移旨在将内容图像与图像的样式合成,以创建以前从未见过的第三张图像。最近的任意风格转移算法发现平衡内容结构和样式模式是一项挑战。此外,由于基于补丁的机制,很难同时保持全球和本地样式模式 ...
0 0 0 2025/04/23 arXiv:1812.02342v5 pip-install
开放词汇对象检测(ovd)已与视觉语言模型(vlm)一起研究,以检测预训练类别之外的新对象。以前的方法通过使用带有附加“类”名称的“正”伪标签来提高扩展检测器知识的泛化能力,例如... ...
0 2 0 2025/04/23 arXiv:2404.05687v1 xueyoo
AutoCoder(AE)是图像和视频生成潜在扩散模型成功的关键,从而降低了降低分辨率并提高效率。但是,就网络设计,压缩比和培训策略而言,AE的力量长期以来一直在不断发展。在这项工作中,我们系统地检查体系结构设计选择并优化计算分布,以获得一系列高效且高压缩的视频AE,这些视频可以实时在移动设备上实时解码 ...
0 0 0 2025/04/23 arXiv:2504.10567v1 yazou
概念漂移是指随着时间的流逝一个非固定学习问题。培训和应用程序数据在现实生活问题上通常不匹配。在本报告中,我们提出了概念漂移问题1的背景 ...
0 0 0 2025/04/23 arXiv:1010.4784v1 yangtian
我们专注于使用深度学习来解决单变量序列的预测问题。我们提出了一种基于向后和前进的残留链接以及一大堆完全连接的层的深层神经架构。该体系结构具有许多理想的属性,可解释,适用于无需修改的各种目标域,并且可以快速训练 ...
0 0 0 2025/04/23 arXiv:1905.10437v4 kongxinren
图形用户界面(GUI)代理已经成为人类计算机交互中的变革范式,从基于规则的自动化脚本到能够理解和执行复杂接口操作的复杂的AI驱动系统。这项调查提供了对基于LLM的GUI代理快速前进的领域的全面检查,系统地分析了其建筑基础,技术组成部分和评估方法。我们识别并分析了构成现代GUI代理的四个基本组件:(1)将基于文本的解析与多模式理解相结合的感知系统,以实现全面的界面理解; (2)通过内部建模,历史经验 ...
0 0 0 2025/04/23 arXiv:2504.13865v1 13366395289

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)