变形金刚最近在计算机视觉社区中引起了极大的关注。但是,缺乏关于图像大小的自我注意力机制的可扩展性限制了它们在最先进的视觉骨架中的广泛采用。在本文中,我们介绍了一种高效且可扩展的注意模型,我们称之为多轴注意,该模型包括两个方面:阻止局部和扩张的全球关注 ...
0 0 0 2025/07/28 arXiv:2204.01697v4 SGN001
本文介绍了Inversematrixvt3d,这是一种将多视图像特征转换为3D特征量的有效方法,用于3D语义占用预测。构造3D卷的现有方法通常依赖于深度估计,特定于设备的操作员或 Transformer 查询,从而阻碍了3D占用模型的广泛采用。相比之下,我们的方法利用两个投影矩阵存储静态映射关系和矩阵乘法,以有效地生成全球鸟类视图(BEV)特征和局部3D特征量 ...
0 0 0 2025/07/28 arXiv:2401.12422v2 SGN001
将自然语言查询转换为结构化查询语言(文本到SQL或NLQ-TO-SQL)是由自然语言处理和数据库社区广泛研究的关键任务,旨在为数据库(NLIDB)提供自然语言界面(NLIDB)并降低非专家的障碍。尽管最近使用大语言模型(LLM)取得了进步,但仍然存在重大挑战。其中包括处理复杂的数据库模式,解决用户查询中的歧义,并生成具有精确反映用户意图的复杂结构的SQL查询 ...
0 0 0 2025/07/28 arXiv:2409.16751v2 qzw
大型推理模型通过广泛的经过思考链的生成实现了显着的性能,但无论出现问题的复杂性如何,都通过应用统一的推理策略表现出明显的计算效率低下。我们提出了分层预算政策优化(HBPO),这是一个增强学习框架,使模型能够学习特定问题的推理深度而无需牺牲能力。 HBPO解决了以效率为导向的培训中探索太空崩溃的基本挑战,在该培训中,长期输出长度的惩罚系统地偏向于必要的长期推理路径 ...
0 0 0 2025/07/28 arXiv:2507.15844v2 yang99
尽管视觉 Transformer (VIT)已成为计算机视觉中的标准体系结构,但它们的尺寸大小导致了大量的计算开销。 Token 压缩技术引起了极大的关注,以解决这个问题,但是它们通常会遭受严重的信息损失,需要大量的额外培训才能实现实际绩效。在本文中,我们提出了自适应 Token 合并(ATM),这是一种新的方法,可确保无损 Token 合并,从而消除了在保持竞争性能的同时进行微调的需求 ...
0 0 0 2025/07/28 arXiv:2505.15160v1 cwd
Mamba由于其线性复杂性在对输入长度上建模全局上下文时表现出很大的潜力。但是,现有的基于MAMBA的骨架无法证明与基于卷积或基于 Transformer 的方法相匹配的性能。我们观察到,简单地修改图像域中的扫描路径不利于完全利用视觉mamba的潜力 ...
0 0 0 2025/07/28 arXiv:2411.17473v1 澹台心木
代码完成是工业环境中的重要实践,可以通过自动在开发过程中自动建议代码片段来提高编程效率。随着大型代码模型(LCM)的出现,该领域见证了重大进步。由于开源和工业代码库之间的自然差异(例如编码模式和独特的内部依赖性),因此开发人员通常在行业中采用LCM时进行域适应性 ...
0 1 0 2025/07/28 arXiv:2505.15179v1 DamonDT
将大型语言模型(LLM)与人类偏好保持一致,取得了巨大的成功。但是,现有的中国偏好数据集受小规模,狭窄的域覆盖范围以及缺乏严格的数据验证的限制。另外,对人类注释的指导和响应标签的依赖显着限制了人类偏好数据集的可扩展性 ...
0 0 0 2025/07/28 arXiv:2504.05535v1 manlinghun

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)