最近,利用预训练技术来增强点云模型已成为一个热门研究主题。但是,现有的方法通常需要对预训练的模型进行全面微调,以在下游任务上实现满意的性能,并随附存储密集型和计算要求。为了解决这个问题,我们为点云提出了一种新型的参数效率微调(PEFT)方法,称为PointGST(Point Cloud Grape Spectral Tuning) ...
大型语言模型 (LLM) 通过将自然语言描述直接翻译为功能代码,从根本上改变了自动化软件开发,并通过 Github Copilot (Microsoft)、Cursor (Anysphere)、Trae (ByteDance) 和 Claude Code (Anthropic) 等工具推动商业采用。尽管该领域已经从基于规则的系统显着发展到基于 Transformer 的架构,但在 HumanEval 等基准测试中,性能从个位数提高到超过 95% 的成功率。在这项工作中,我们提供了关于代码 LLM 的全面综合和实践指南(一系列分析和探索实验),通过高级提示范例、代码预训练、监督微调、强化学习和自主编码代理,系统地检查从数据管理到后训练的完整模型生命周期。我们分析了通用 LLM (GPT-4、Claude、LLaMA)和代码专业 LLM (StarCoder、Code LLaMA、DeepSeek-Coder 和 QwenCoder)的代码能力,批判性地检查了技术、设计决策和权衡。此外,我们阐明了学术研究(例如基准和任务)和现实世界部署(例如与软件相关的代码任务)之间的研究与实践差距,包括代码正确性、安全性、大型代码库的上下文感知以及与开发工作流程的集成,并将有前景的研究方向映射到实际需求。最后,我们进行了一系列实验,对代码预训练、监督微调和强化学习进行了全面分析,涵盖尺度规律、框架选择、超参数敏感性、模型架构和数据集比较 ...
长序列建模面临着类似 RNN 模型中压缩固定大小内存的效率与基于注意力的 Transformer 中无损增长内存的保真度之间的基本权衡。受认知科学中的多存储模型的启发,我们引入了人工神经网络的记忆框架。我们的方法将 Transformer 的 KV 缓存的滑动窗口维护为无损短期记忆,而称为人工海马网络(AHN)的可学习模块会循环地将窗口外信息压缩到固定大小的紧凑长期记忆中 ...
在本文中,我们提出了Segdino3D,这是一种用于3D实例分割的新型 Transformer 编码器框架。由于3D训练数据通常不够2D训练图像,因此Segdino3D旨在完全利用预训练的2D检测模型(包括图像级和对象级特征)的2D表示,以改善3D表示。 Segdino3D同时将点云及其关联的2D图像作为输入 ...
Data augmentation is widely utilized as an effective technique to enhance the generalization performance of deep models. However, data augmentation may inevitably introduce distribution shifts and noises, which significantly constrain the potential and deteriorate the performance of deep networks. To this end, we propose a novel information-preserving framework, namely IPF-RDA, to enhance the robustness of data augmentations in this paper.
大型视觉语言模型(LVLM)中语言和视觉的融合通过增强了传统体系结构以外的适应性,上下文推理和概括,从而彻底改变了基于学习的对象检测。这篇深入的评论提出了对LVLMS最先进的结构化探索,该探索是通过三步研究审查过程系统地组织的。首先,我们讨论视觉语言模型(VLM)的功能,以描述这些模型如何利用自然语言处理(NLP)和计算机视觉(CV)技术,以彻底改变对象检测和本地化 ...
大型多模型模型患有多模式幻觉,在该模型中,它们提供了与给定的视觉信息未对准的不正确响应。最近的作品猜想多模式幻觉背后的原因之一是由于视觉编码器未能正确地扎根。为了减轻这个问题,我们提出了一种新的方法,该方法利用自我反馈作为视觉提示 ...
立体声匹配从图像对应关系恢复深度。现有的方法难以处理匹配线索有限的区域,例如遮挡和无纹理区域。为了解决这个问题,我们提出了一种怪物,这是一种新的方法,它利用了单眼深度估计和立体声匹配的互补强度 ...
在非结构化环境中的机器人操作需要可以跨越各种任务的系统,同时保持稳健和可靠的性能。我们介绍了{GVF-TAPE},这是一个闭环框架,将生成性视觉远见与任务无关姿势估计结合在一起,以实现可伸缩的机器人操作。 GVF-TAPE采用生成视频模型来预测单个侧视图RGB图像和任务描述的未来RGB-D帧,并提供引导机器人操作的视觉计划 ...
最近的工作证明了深钢筋学习(RL)算法在模拟中学习复杂的机器人行为的能力,包括在多指操作的领域中。但是,由于模拟与现实之间的差距,此类模型将转移到现实世界的挑战。在本文中,我们介绍了培训a)可以在拟人化机器人手上执行强大灵巧操纵的政策,b)适用于提供可靠的实时信息的稳健姿势估计器,以提供有关被操纵的物体状态的可靠实时信息 ...