arxiv的文档

arxiv 南京

个性签名 ...

LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL

模式链接是在文本到SQL任务中实现人类水平的性能的关键瓶颈，尤其是在现实世界中的大规模多数据库方案中。解决架构链接面临两个主要挑战：（1）数据库检索：从多数据库设置中的大型模式池中选择正确的数据库，同时滤除无关的数据库。（2）架构项目接地：准确地识别来自SQL生成的大而冗余模式中的相关表和列 ...

0 0 0 0 2025/07/24 arXiv:2503.18596v3 18916369915

RGBAvatar: Reduced Gaussian Blendshapes for Online Modeling of Head Avatars

我们提出了降低的高斯蓝色化头像（RGBAVATAR），这是一种以足够的速度来重建具有动画的头部化身的方法。与先前利用线性碱基从3D形态模型（3DMM）到建模高斯混合形形成的方法不同，我们的方法映射将3DMM参数跟踪到使用MLP的降低的混合物重量，从而导致一组紧凑的混合形状碱基。学到的紧凑型基本组成有效地捕获了特定个体的基本面部细节，并且不依赖3DMM的固定基本组成权重，从而提高了重建质量和更高的效率 ...

0 0 0 0 2025/07/24 arXiv:2503.12886v1 rcc

LumiGauss: Relightable Gaussian Splatting in the Wild

众所周知，使用无约束的照片收集将照明从几何形状中解耦是具有挑战性的。解决它将使许多用户受益，因为创建复杂的3D资产需要数天的体力劳动。许多以前的作品试图解决这个问题，通常以产出忠诚为代价，这质疑这种方法的实用性 ...

0 0 0 0 2025/07/24 arXiv:2408.04474v2 sunny78669

Good, Cheap, and Fast: Overfitted Image Compression with Wasserstein Distortion

受生成图像模型成功的启发，最新的学习图像压缩的工作越来越集中在自然图像分布的更好的概率模型上，从而导致出色的图像质量。但是，这是以一个计算复杂性为代价的，该计算复杂性比当今的商业编解码器高几个数量级，因此对于大多数实际应用而言。在本文的情况下，我们证明，通过专注于建模视觉感知而不是数据分布，我们可以在视觉质量和比特速率和比特速率之间取舍，类似于“生成”压缩模型（例如Hific），同时需要少于多重收益操作（MAC）的1％来进行压缩 ...

0 0 0 0 2025/07/24 arXiv:2412.00505v2 1150501302

A Survey on Patent Analysis: From NLP to Multimodal AI

验证的语言模型（PLM）和大型语言模型（LLM）的最新进展证明了各种领域的变革能力。专利分析和创新领域不是一个例外，在该领域中，自然语言处理（NLP）技术在专利周期中提供了简化和增强重要任务的机会，例如专利分类和专利检索。这不仅加快了专利研究人员和申请人的效率，而且为技术创新和发现开辟了新的途径 ...

0 0 0 0 2025/07/24 arXiv:2404.08668v3 15966829631

Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

大型语言模型（LLM）在数学推理方面取得了显着进步，但通常依靠单范式推理，从而限制了它们在各种任务中的有效性。我们介绍了一个新颖的统一框架（COR），这是一个整合多种推理范式的新型统一框架 - 自然语言推理（NLR），算法推理（AR）和符号推理（SR） - 以启用协同协作。 COR通过不同的推理范式产生多个潜在的答案，并将它们合成为连贯的最终解决方案 ...

0 0 0 0 2025/07/24 arXiv:2501.11110v2 qq466943803

Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation

尽管对曼巴群体系结构的兴趣越来越大，作为 Transformer 体系结构的潜在替代品，但曼巴山的参数有效微调方法（PEFT）方法仍未得到探索。在我们的研究中，我们介绍了MAMBA架构中PEFT的两种关键见解驱动的策略：（1）而州空间模型（SSM）被视为Mamba Architecture的基石，然后期望在转移学习中发挥主要作用，但我们的发现表明，投影仪 - 不是SSM-是转移学习的主要贡献者。（2）根据我们的观察，我们提出了一种专门针对Mamba体系结构的新型PEFT方法：以靶向对角线为中心的线性变换（Protial） ...

0 0 0 0 2025/07/24 arXiv:2411.15224v3 meme

Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation

视力基础模型（VFM）和视觉语言模型（VLM）由于其强大的概括能力而在域广义语义分割（DGSS）中获得了吸引力。但是，现有的DGSS方法通常完全依赖于VFM或VLM，从而忽略了它们的互补优势。 VFM（e ...

0 0 0 0 2025/07/24 arXiv:2504.03193v2 meme

Quality Text, Robust Vision: The Role of Language in Enhancing Visual Robustness of Vision-Language Models

捍卫预训练的视觉模型（VLM）（例如剪辑），以防止对抗性攻击，因为这些模型被广泛用于不同的零摄像任务，包括图像分类。但是，现有的对抗性训练（AT）可靠的微调方法在很大程度上忽略了语言在增强视觉鲁棒性中的作用。具体而言，（1）通过方法监督的依赖短文（e ...

0 0 0 0 2025/07/24 arXiv:2507.16257v1 yanlinghansd

Self-supervised ControlNet with Spatio-Temporal Mamba for Real-world Video Super-resolution

现有的基于扩散的视频超分辨率（VSR）方法容易将复杂的降解和明显的文物引入高分辨率视频，因为它们的固有随机性。在本文中，我们通过将自我监督的学习和MAMBA纳入预先训练的潜在扩散模型中提出了一个噪声真实世界VSR框架。为了确保相邻帧之间的内容一致性，我们使用带有3D选择性扫描模块的视频状态空间块通过全局时空注意机制增强了扩散模型，该模块以负担得起的计算成本增强了连贯性 ...

0 0 0 0 2025/07/24 arXiv:2506.01037v1 meme