arxiv的文档

arxiv 南京

个性签名 ...

Balanced Contrastive Learning for Long-Tailed Visual Recognition

现实世界中的数据通常遵循长尾巴的分布，其中一些多数类别占据了大多数数据，而大多数少数族裔类别都包含有限数量的样本。分类模型最小化的跨凝结努力来代表和对尾部类别进行分类。尽管对学习公正的分类器的学习问题进行了充分的研究，但代表数据不平衡数据的方法却没有探索 ...

0 0 0 0 2025/07/01 arXiv:2207.09052v3 15966829631

The Hidden Attention of Mamba Models

Mamba层提供了有效的选择性状态空间模型（SSM），该模型在建模多个域，包括NLP，远程序列处理和计算机视觉方面非常有效。选择性SSM被视为双重模型，其中一个人通过IO-Aware Paraleal扫描在整个序列上并行训练，并以自动回归方式部署。我们添加了第三种视图，并表明可以将这种模型视为注意力驱动的模型 ...

0 0 0 0 2025/07/01 arXiv:2403.01590v2 zjn_a

Multichannel Long-Term Streaming Neural Speech Enhancement for Static and Moving Speakers

在这项工作中，我们将先前提出的离线空间网络扩展到静态和移动扬声器场景中的长期流媒体多通道语音增强。空间网络利用空间信息，例如语音的空间/转向方向，用于区分目标语音和干扰，并取得出色的性能。空间网络的核心是用于学习空间向量的时间动态的窄带自我发项模块 ...

0 0 0 0 2025/07/01 arXiv:2403.07675v2 zjn_a

LPUWF-LDM: Enhanced Latent Diffusion Model for Precise Late-phase UWF-FA Generation on Limited Dataset

超宽场荧光素血管造影（UWF-FA）可以使用荧光素钠的精确鉴定眼疾病，这可能是有害的。现有研究开发了从超宽场扫描激光眼镜检查（UWF-SLO）产生UWF-FA的方法，以减少与注射相关的不良反应。但是，这些方法在产生高质量的后期UWF-FA方面的有效性较差，尤其是在病变区域和细节中 ...

0 0 0 0 2025/07/01 arXiv:2409.00726v1 Rrrrr

VL-Mamba: Exploring State Space Models for Multimodal Learning

多模式大语模型（MLLM）引起了广泛的兴趣，并具有丰富的应用。但是，其 Transformer 结构中的固有注意机制需要二次复杂性，并导致昂贵的计算开销。因此，在这项工作中，我们提出了基于状态空间模型的多模式大语言模型VL-Mamba，已证明其具有巨大的潜力，可以以序列长度快速推理和线性缩放的长期序列建模 ...

0 0 0 0 2025/07/01 arXiv:2403.13600v1 zjn_a

Hierarchical Reasoning Model

推理，设计和执行复杂的面向目标的动作序列的过程仍然是AI的关键挑战。当前的大型语言模型（LLMS）主要采用经营链（COT）技术，这些技术遭受了脆弱的任务分解，广泛的数据需求和高潜伏期。受到人脑中的层次和多时间处理的启发，我们提出了分层推理模型（HRM），这是一种新型的经常性架构，在保持训练稳定性和效率既具有训练稳定性和效率上都具有显着的计算深度 ...

0 0 0 0 2025/07/01 arXiv:2506.21734v1 haoyi199815

Helix: Serving Large Language Models over Heterogeneous GPUs and Network via Max-Flow

本文介绍了Helix，这是一种用于异质GPU群集中的高通量，低延迟大语言模型（LLM）的分布式系统。 Helix背后的关键思想是在异质GPU和网络连接上制定LLM的推理计算，作为定向，加权图上的最大流量问题，其节点代表GPU实例，而边缘通过其容量来捕获GPU和网络异质性。然后，Helix使用混合整数线性编程（MILP）算法来发现高度优化的策略，可在异质GPU上使用LLMS ...

0 0 1 1 2025/07/01 arXiv:2406.01566v2 hnu

Understanding Transformer from the Perspective of Associative Memory

在本文中，我们通过关联记忆的角度分享了对变形金刚体系结构的理解和见解，这是一个受人类认知启发的经典心理概念。我们从关联记忆的基础知识开始（想想简单的线性注意力），然后介入两个维度：内存容量：变形金刚能真正记住多少，以及有多好？我们介绍了检索SNR来衡量这一点，并使用内核观点来数学上揭示了为什么软马克斯的注意力如此有效。我们还展示了如何将FFN视为一种关联记忆，从而有助于其设计和潜在的改进 ...

0 0 1 33 2025/07/01 arXiv:2505.19488v1 hwrabbit

Intention-Conditioned Flow Occupancy Models

大规模的预培训从根本上改变了当今的机器学习研究：大型基础模型经过培训，然后可以被社区中的任何人（包括没有数据或计算资源的人使用来从头开始培训模型的人）以适应并遵守特定任务。将相同的框架应用于加固学习（RL）具有吸引力，因为它为解决RL的核心挑战提供了令人信服的途径，包括样本效率和鲁棒性。但是，在RL的背景下，预先培训的大型模型仍然存在着根本的挑战：行动具有长期的依赖性，因此训练一个基础模型，跨时间的原因很重要 ...

0 0 0 0 2025/07/01 arXiv:2506.08902v1 晚餐杀手

Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models

尽管最近的大型视力模型（LVLM）在多模式任务中表现出了显着的性能，但它们很容易产生幻觉文本响应，这些响应与给定的视觉输入不符，这限制了它们在现实世界中的实际适用性。在这项工作中，受到观察的启发，即文本对图像生成过程是LVLMS中图像条件的响应生成的倒数，我们探讨了利用文本对图像生成模型的潜力，以帮助减轻LVLMS中的幻觉。我们发现，生成模型可以提供有价值的自我反馈，以减轻响应和 Token 水平的幻觉 ...

0 0 0 0 2025/07/01 arXiv:2502.06130v1 IQ_QI