由于人类姿势变化,人体阻塞,摄像头视图变化等的关键问题,人们的重新识别确实是一项具有挑战性的视觉识别任务。为了解决这一问题,大多数最先进的方法都是基于深度卷积神经网络(CNN)提出的,它因其强大的特征学习能力和分类能力和分类能力和分类边界拟合能力而受到责任。尽管对人员重新识别的重要作用,但如何构建有效的CNN基线模型尚未得到很好的研究 ...
0 0 0 2025/03/27 arXiv:1807.11042v1 L1MICH233
多模式的大语言模型(MLLM)在理解复杂的语言和视觉数据方面表现出色,从而使通才机器人系统能够解释说明并执行具体的任务。然而,他们的现实部署受到大量计算和存储需求的阻碍。最近对LLM层中均匀模式的见解启发了稀疏技术以应对这些挑战,例如早期出口和象征性修剪 ...
0 0 0 2025/03/27 arXiv:2503.20384v1 蔡明方
链接预测是图形学习的基本任务,它固有地由图形的拓扑塑造。尽管传统的启发式方法是基于图形拓扑结构的,但它们在跨各种图表概括方面遇到了挑战。最近的研究工作旨在利用启发式方法的潜力,但是适应本地和全球启发式方法的统一配方仍未被发现 ...
0 0 0 2025/03/27 arXiv:2406.07979v2 xixiaixixi
近年来,多模式大语模型(MLLM)取得了显着进步,证明了发展智能生物医学助理的可行性。但是,当前的生物医学MLLM主要集中在图像级别的理解并将相互作用限制为文本命令上,从而限制了其能力边界和使用的灵活性。在本文中,我们引入了一种新型的端到端多模式的大型语言模型,该模型名为Medplib,该模型具有像素级的理解 ...
0 0 0 2025/03/27 arXiv:2412.09278v2 Lydia1317
工具学习可以进一步扩大大语模型(LLM)的使用情况。但是,大多数现有方法要么需要对模型只能使用训练数据中看到的工具进行填补,要么以较低的效率将工具演示添加到提示中。在本文中,我们提出了一种新的工具学习方法 ...
0 0 0 2025/03/27 arXiv:2503.16779v1 OrganicWater
使用零件级的功能进行行人图像描述提供了细粒度的信息,并已被验证为在最近的文献中对人的检索有益。零件发现的先决条件是每个部分都应位置良好。而不是使用外部提示,e ...
0 0 0 2025/03/27 arXiv:1711.09349v3 L1MICH233
随着大视觉模型(LVLM)的计算需求的增加,可视化 Token 修剪已被证明有效提高了推理速度和记忆效率。 LVLMS中的传统修剪方法主要集中在注意力评分上,以确定 Token 相关性,忽略了诸如空间位置和 Token 相似性之类的关键方面。为此,我们介绍了Adaptprune,这是一种新颖的插件训练修剪方法,它通过将空间距离和 Token 与自适应NMS方法整合和 Token 相似性建立在常规的 ...
0 0 0 2025/03/27 arXiv:2503.08019v1 dddd
重建结构的无监督方法在捕获同一类别不同形状之间一致结构的几何细节方面面临重大挑战。为了解决这个问题,我们提出了一种基于新的可变形原始场(DPF)表示的新型无监督的结构重建方法,称为DPF-NET,该方法允许使用参数化几何原始素进行高质量的形状重建。我们设计了一个两阶段的重建管道,该管道由原始生成模块和原始变形模块组成,以逐渐近似每个部分的目标形状 ...
0 0 0 2025/03/27 arXiv:2308.13225v1 Tyranitar

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)