arxiv的文档

arxiv 南京

个性签名 ...

Towards Explainable Fake Image Detection with Multi-Modal Large Language Models

图像产生的进展引起了重大的公共安全问题。我们认为假图像检测不应作为“黑匣子”操作。相反，理想的方法必须确保强大的概括和透明度 ...

0 1 0 0 2025/07/01 arXiv:2504.14245v1 13080420360

Perfect Alignment May be Poisonous to Graph Contrastive Learning

图对比学习（GCL）旨在通过对齐正对和分离负对来学习节点表示。然而，很少有研究人员关注基于图的学习中使用的特定增强背后的内在规律。什么样的增强将有助于下游性能，对比学习实际上如何影响下游任务，以及为什么增强的幅度如此重要？本文试图通过建立增强和下游性能之间的联系来解决这些问题 ...

0 0 0 0 2025/07/01 arXiv:2310.03977v3 15966829631

Multi-Sample based Contrastive Loss for Top-k Recommendation

TOUP-K建议是建议系统中的一项基本任务，通常通过比较正面和负面来学习。对比度损失（CL）是最近受到更多关注的对比学习的关键，我们发现它非常适合Top-K建议。但是，CL将正面和负样本的重要性视为相同的问题 ...

0 0 0 0 2025/07/01 arXiv:2109.00217v1 15966829631

Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors

在序列之间建模长期依赖性是机器学习的一个长期目标，并导致了诸如状态空间模型之类的体系结构，在长序列上极大地超过了 Transformer 。然而，这些令人印象深刻的经验收益在基准上得到了很大的证明（例如 ...

0 0 0 0 2025/07/01 arXiv:2310.02980v4 yanyu

Deep Research Agents: A Systematic Examination And Roadmap

大语言模型（LLM）的快速进步已引起了一种新类别的自主AI系统，称为深度研究（DR）代理。这些代理人旨在通过利用动态推理，自适应长期计划，多跳信息检索，迭代工具使用和生成结构化分析报告的结合来解决复杂的多转化信息研究任务。在本文中，我们对构成深层研究代理的基础技术和建筑组件进行了详细的分析 ...

0 0 0 0 2025/07/01 arXiv:2506.18096v1 18743622602

SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger

在上一个两年期期间，视觉语言预训练在几个下游任务上取得了值得注意的成功。然而，获得对彼此完全不包括的高质量图像文本对，仍然是一项具有挑战性的任务，并且在常用的数据集中存在噪音。为了解决这个问题，我们提出了一种新颖的方法，这是一种新颖的方法，可以放松严格的一对一约束，并通过引入软化的目标来实现柔软的交叉模式对齐，这是由高元素内模式内的自我相似性产生的 ...

0 0 0 0 2025/07/01 arXiv:2303.17561v2 jeft

Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding

由于其端到端的管道和有希望的结果， Transformer 引起了对STVG的越来越多的兴趣。现有的基于 Transformer 的STVG方法通常利用一组对象查询，这些查询仅使用零来初始化，然后通过具有多模式特征的迭代交互逐渐学习目标位置信息，以进行空间和时间定位。尽管很简单，但由于缺乏目标特异性提示，这些零对象查询很难从复杂场景中与多模式特征的相互作用中学习判别目标信息（\ e ...

0 0 0 0 2025/07/01 arXiv:2502.11168v1 yanyu

InfoCSE: Information-aggregated Contrastive Learning of Sentence Embeddings

对比度学习已在嵌入学习的句子中进行了广泛的研究，该句子假设同一句子的不同观点的嵌入更接近。这个假设带来的约束很薄弱，良好的句子表示也应该能够重建原始句子片段。因此，本文提出了一个被称为Infocse的无监督句子嵌入的信息聚集的对比学习框架 ...

0 0 0 0 2025/07/01 arXiv:2210.06432v3 15966829631

Balanced Contrastive Learning for Long-Tailed Visual Recognition

现实世界中的数据通常遵循长尾巴的分布，其中一些多数类别占据了大多数数据，而大多数少数族裔类别都包含有限数量的样本。分类模型最小化的跨凝结努力来代表和对尾部类别进行分类。尽管对学习公正的分类器的学习问题进行了充分的研究，但代表数据不平衡数据的方法却没有探索 ...

0 0 0 0 2025/07/01 arXiv:2207.09052v3 15966829631

The Hidden Attention of Mamba Models

Mamba层提供了有效的选择性状态空间模型（SSM），该模型在建模多个域，包括NLP，远程序列处理和计算机视觉方面非常有效。选择性SSM被视为双重模型，其中一个人通过IO-Aware Paraleal扫描在整个序列上并行训练，并以自动回归方式部署。我们添加了第三种视图，并表明可以将这种模型视为注意力驱动的模型 ...

0 0 0 0 2025/07/01 arXiv:2403.01590v2 zjn_a