开放式摄影多个对象跟踪旨在概括跟踪器在培训期间看不见的类别,从而在各种现实世界中实现其应用程序。但是,现有的开放式摄影跟踪器受其框架结构,隔离框架级别的感知以及模态相互作用不足的限制,这阻碍了其在开放式摄氏分类和跟踪中的性能。在本文中,我们提出了OVTR(使用 Transformer 的端到端开放式唱机多个对象跟踪),这是第一个同时对运动,外观和类别进行建模的端到端开放式视频跟踪器 ...
0 0 0 2025/03/18 arXiv:2503.10616v1 jesson
将自然语言转化为结构化查询语言(SQL)的改进可以归因于大语言模型(LLMS)的进步。针对特定数据库方言(例如MySQL)量身定制的开源LLM表现出色。但是,云服务提供商正在寻找统一的数据库管理器服务(e ...
0 0 0 2025/03/18 arXiv:2410.18406v1 李大人
现有的视觉模型(VLMS)通常患有视觉幻觉,其中生成的响应包含不正确的视觉输入中的不准确性。努力解决此问题而不模型登录主要通过对比或放大解码过程中视觉嵌入的权重来减少偏见,从而主要减轻幻觉。但是,这些方法以损害语言推理能力为代价改善了视觉感知 ...
0 0 0 2025/03/18 arXiv:2503.10183v2 Rainbow
我们提出了第一个大型重建模型(lrm),它可以在短短5秒内从单个输入图像预测对象的3d3d shapenet)上以特定类别方式进行训练的方法相比,lrm采用高度可扩展的基于 Transformer 的架构,具有5,具有,可以直接从数据集预测神经辐射场( nerf),100万个对象的海量多视图数据上以端到端的方式训练我们的模型,包括来自objaverse mvimgnet的真实捕获 ...
0 0 0 2025/03/18 arXiv:2311.04400v2 douglas0406
(我们研究学习知识图中实体和关系的表示以预测缺失链接的问题。此类任务的成功在很大程度上依赖于建模和推断关系(或关系之间)模式的能力。在本文中 ...
0 0 0 2025/03/18 arXiv:1902.10197v1 annseongjin
由于其巨大的应用潜力,大规模场景生成引起了学术界和工业界的广泛关注。最近的研究采用强大的生成模型来创建所需的场景并取得了有希望的结果。然而,这些方法中的大多数都使用 3D 图元(例如,3D 图元)来表示场景 ...
0 0 0 2025/03/18 arXiv:2403.15698v3 mencius
联合学习是培训机器学习模型的一种有前途的方法,同时保留了数据隐私,但其分布性质使其容易受到后门攻击的影响,尤其是在NLP任务中,而相关研究仍然有限。本文介绍了SDBA,这是一种新型的后门攻击机制,专为FL环境中的NLP任务而设计。我们跨LSTM和GPT-2模型的系统分析确定了后门注入最脆弱的层,并通过层梯度遮罩和这些层中的Top-k%梯度掩盖来实现隐形和持久耐用性 ...
0 0 0 2025/03/18 arXiv:2409.14805v1 chenzhuo-wang
矩阵完成旨在使用低复杂性结构(例如,低级)的假设来估计数据矩阵中的缺失条目,以便可以进行插补 ...
0 1 0 2025/03/18 arXiv:2305.10637v3 793973901

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)