arxiv的文档

arxiv 南京

个性签名 ...

MatFormer: Nested Transformer for Elastic Inference

Transformer 模型部署在各种环境中，从多加速器集群到独立移动电话。这些场景中的不同推理约束要求从业者将 PaLM 2、Llama 和 ViTs 等基础模型训练为一系列不同大小的模型。由于训练成本高昂，只有少数几个模型大小得到训练和支持，限制了对相关权衡的更细粒度的控制，包括延迟、成本和准确性 ...

0 0 0 0 2025/06/28 arXiv:2310.07707v2 hwrabbit

Code Graph Model (CGM): A Graph-Integrated Large Language Model for Repository-Level Software Engineering Tasks

大型语言模型（LLMS）的最新进展已在功能级代码生成中显示出希望，但是存储库级的软件工程任务仍然具有挑战性。当前的解决方案主要依赖于专有的LLM代理，这些LLM代理引入了不可预测性和限制可访问性，从而引起了人们对数据隐私和模型自定义的担忧。本文研究了开源LLM是否可以无需基于代理的方法有效地解决存储库级任务 ...

0 0 0 0 2025/06/28 arXiv:2505.16901v4 fazai001

What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models

大型语言模型（LLM）已有效地用于许多计算机视觉任务，包括图像分类。在本文中，我们提出了一种使用多模式LLMS的零拍图像分类的简单而有效的方法。使用多模式LLMS，我们从输入图像中生成全面的文本表示 ...

0 0 0 0 2025/06/28 arXiv:2405.15668v5 jecc

Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval

由于大规模培训，新颖的建筑和学习设计及其在LLMS和多模式LLMS中的应用，跨模式检索正在增强研究界的疗效和兴趣。在本文中，我们向前迈进了一步，并设计了一种允许由图像和文本组成的多模式查询的方法，并且可以在多模式文档的集合中搜索，其中图像和文本是交错的。我们的模型RET采用了从查询和文档侧的视觉和文本主干的不同层中提取的多层表示 ...

0 0 0 0 2025/06/28 arXiv:2503.01980v1 ssj

Aligning Vision to Language: Text-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning

大语言模型（LLM）中的多模式推理与不完整的知识和幻觉伪像斗争，挑战文本知识图（kgs）仅由于其模态隔离而部分缓解。尽管多模式知识图（MMKGS）有望增强跨模式的理解，但它们的实际结构受到了手动文本注释和视觉声音实体链接中固有噪声的语义狭窄的影响。在本文中，我们提出了视觉对语言对语言的综合知识图（Valik），这是一种构建MMKGS的新方法，可通过补充跨模式信息来增强LLMS推理 ...

0 0 0 0 2025/06/28 arXiv:2503.12972v1 18636279200

Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models

我们介绍了发现和应用稀疏特征电路的方法。这些是人类可解释特征的因果关系子网，用于解释语言模型行为。先前工作中确定的电路由多语义且难以解释的单元组成，例如注意力头或神经元，这使得它们不适合许多下游应用 ...

0 0 0 0 2025/06/28 arXiv:2403.19647v3 Goodhao

A Survey of LLM-Driven AI Agent Communication: Protocols, Security Risks, and Defense Countermeasures

近年来，大型语言模型驱动的AI代理商表现出了前所未有的智慧，灵活性和适应性，并且正在迅速改变人类的生产和生活方式。如今，代理商正在进行新的进化。他们不再充当LLM等孤立的岛屿 ...

0 0 0 0 2025/06/28 arXiv:2506.19676v1 hhhhh

Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning

离线多代理强化学习是由于在离线设置中常见的分配转移问题的耦合效应以及在多代理环境中常见的高维问题，这使得该动作分布（OOD）和价值高估现象过于严重。在这个问题上，我们提出了一种新型的多代理离线RL算法，称为反事实保守Q学习（CFCQL），以进行保守的价值估计。 CFCQL并没有将所有代理作为高维单一的单个单一方法，而是直接应用单个代理方法，而是以反事实的方式分别计算出每个代理的保守正规化，然后线性地结合它们以实现总体保守的价值估计 ...

0 0 0 0 2025/06/28 arXiv:2309.12696v1 giantzhong

Proactive Gradient Conflict Mitigation in Multi-Task Learning: A Sparse Training Perspective

向通才代理商前进需要使用统一模型同时处理多个任务，从而强调了同时对多个下游任务的模型培训的重要性。多任务学习中的一个普遍问题是梯度冲突的发生，这导致了联合培训期间不同任务之间的潜在竞争。这项竞争通常会导致一项任务的改进，而另一个竞争则是牺牲另一个任务的牺牲 ...

0 0 0 0 2025/06/28 arXiv:2411.18615v1 火火火

FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model

我们旨在为世界模型开发一个基于模型的计划框架，可以通过仅使用语言和视觉输入的通用操纵任务来增加模型和数据预算来扩展。为此，我们提出了以流动为中心的生成计划（FLIP），这是一种基于模型的计划算法，具有三个关键模块：1。多模式流量生成模型作为通用动作动作提案模块； 2 ...

0 0 0 0 2025/06/27 arXiv:2412.08261v2 alex666