我们介绍了密集的字幕任务,该任务需要一个计算机视觉系统来本地化和描述自然语言中图像中的显着区域。当描述由单个单词组成时,密集字幕任务概括了对象检测,并且当一个预测区域涵盖完整图像时,图像字幕会标题。为了解决本地化和说明任务,我们提出了一个完全卷积的本地化网络(FCLN)体系结构,该架构以单个,有效的向前通行证处理图像,不需要外部区域建议,并且可以通过一轮优化对端到端进行培训 ...
0 0 0 2025/03/12 arXiv:1511.07571v1 Zlt
新颖的扩散模型可以通过集成的高质量文本合成光真实的图像。出乎意料的是,我们通过注意激活修补的证明,只有不到1%的扩散模型参数包含在注意层中,影响了图像中文本内容的产生。在这一观察结果的基础上,我们通过针对扩散模型的交叉和关注层来提高文本产生效率和性能 ...
0 0 0 2025/03/12 arXiv:2502.09935v1 chaospler
本文使用流体动力学模型研究了夸克 - 糖浆中的JET-MEDIUM相互作用。它处理的是马赫锥的创建,这些锥体应在测得的角粒子分布中表现出特征结构,从而可以直接结论状态方程,尤其是介质的声音速度。检查了几种不同的射流能量损失方案,并分析了能量和动量损失的不同机制,从弱相互作用(基于从扰动量子染色体动力学,PQCD计算)到强相互作用(使用抗De-Sitter/Sonformal-Sitter/Sonf ...
0 0 0 2025/03/12 arXiv:0910.4114v1 kahsisjdhdkd
联合学习(FL)是一种机器学习设置,许多客户(例如移动设备或整个组织)在中央服务器的编排下协作训练模型(e ...
0 0 0 2025/03/12 arXiv:1912.04977v3 xyj
图形神经网络(GNN)已成为学习图形结构化数据的强大工具,在包括社交网络分析和分子生物学在内的众多领域中找到应用程序。在这个广泛的类别中,异步复发图神经网络(ARGNNS)脱颖而出,在动态图中捕获复杂依赖性,类似于活生物体的复杂和自适应性质。但是,它们的复杂性通常会导致大型且计算昂贵的模型 ...
0 0 0 2025/03/12 arXiv:2502.17522v1 haiyao
我们提出了一种新型的图像到视频生成方法,该方法可转换单个图像和输入条件(例如,将力和扭矩应用于图像中的对象),以产生一个逼真的,物理上可行的且具有时间一致的视频 ...
0 0 0 2025/03/12 arXiv:2409.18964v1 陆三七
大型语言模型(LLMS)在接受监督的对比度培训时表现出强烈的性能作为文本嵌入模型。但是,它们的大尺寸气球推理时间和内存需求。在本文中,我们表明,通过在只有1000个步骤的监督培训之前修剪LLM的最后$ P \%$层,我们就可以减少内存和推理时间的比例减少 ...
0 0 0 2025/03/12 arXiv:2410.14578v1 yli
语言模型在预处理过程中学习了大量的事实信息,最近的工作将此信息定位于特定模型权重,例如中层MLP权重。在本文中,我们发现我们可以通过编辑与现有方法不同的位置的重量来改变模型中存储事实的方式。这是令人惊讶的,因为我们希望将事实定位到特定的模型参数将告诉我们在模型中操纵知识的位置,并且这种假设激发了过去的模型编辑方法上的工作 ...
0 0 0 2025/03/12 arXiv:2301.04213v2 chaospler

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)