深度卷积网络在静止图像中的视觉识别取得了巨大的成功。但是,对于视频中的行动识别,比传统方法的优势并不是那么明显。本文旨在发现在视频中设计有效的Convnet体系结构的原理,并在培训样本有限的情况下学习这些模型 ...
0 0 0 2025/03/09 arXiv:1608.00859v1 sunwhw
尽管当今的视频识别系统可以准确地解析快照或短剪辑,但它们无法在更长的时间内连接点和理由。大多数现有的视频体系结构只能处理视频的5秒,而不会击中计算或内存瓶颈。在本文中,我们提出了一种克服这一挑战的新策略 ...
0 0 0 2025/03/09 arXiv:2201.08383v2 sunwhw
近年来,大型语言模型(LLM),例如Chatgpt,Llama,Glm和Palm,在各种任务中表现出色。但是,LLMS在现实世界应用中面临两个主要挑战。一个挑战是,培训LLM会消耗大量的计算资源,从而阻止LLM被有限的计算资源的中小型企业采用 ...
0 0 0 2025/03/09 arXiv:2310.10049v1 chenzhuo-wang
尽管在过去50年中,使用Navier-Stokes方程(NSE)的数值离散化在模拟流问题方面取得了重大进展,但我们仍然无法将无缝的嘈杂数据纳入现有算法中,网状生成很复杂,并且我们无法解决由参数NESE管理的高维问题。此外,解决逆流问题通常非常昂贵,需要复杂且昂贵的配方和新的计算机代码。在这里,我们回顾了流动物理知识的学习,无缝的数据和数学模型,并使用物理知识的神经网络(PINN)实施它们 ...
0 0 0 2025/03/08 arXiv:2105.09506v1 tuxiaolv
尽管语言模型的有效性越来越高,但其推理能力仍然不发达。特别是,缺乏通过反事实问题回答的因果推理。这项工作旨在弥合这一差距 ...
0 0 0 2025/03/08 arXiv:2410.03767v1 tanhua
我们建议通过用Schrödinger桥进行熵插值来学习生成模型。生成学习任务可以根据基于Kullback-Leibler Divergence在参考分布和目标分布之间进行插值。在人群级别上,这种熵插值是通过$ [0,1] $的SDE和时间变化的漂移术语来表征的 ...
0 0 0 2025/03/08 arXiv:2106.10410v2 assassinkkkk
本文旨在对当前扩散模型进行全面的理论分析。我们介绍了一种新颖的生成学习方法,利用潜在空间中的Schr {Ö} dinger桥扩散模型作为该领域中理论探索的框架。我们的方法开始于使用可能与目标分布不同的分布进行的数据进行编码器架构进行预培训,从而通过利用预先存在的大型模型来促进大型样本量的适应性 ...
0 0 0 2025/03/08 arXiv:2404.13309v3 assassinkkkk
随着工业产品变得丰富而精致,视觉工业缺陷检测受到了很多关注,包括二维和三维视觉特征建模。传统方法使用统计分析,异常数据合成模型和基于生成的模型来分开产品缺陷特征和完全缺陷检测。最近,基础模型的出现带来了视觉和文本语义的先验知识 ...
0 0 0 2025/03/08 arXiv:2502.19106v2 长空

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)