arxiv的文档

arxiv 南京

个性签名 ...

Detoxifying Large Language Models via Knowledge Editing

本文研究了使用知识编辑技术来消除大型语言模型 (LLM) 的毒害。我们构建了一个基准测试SafeEdit，它涵盖了九个不安全类别，具有各种强大的攻击提示，并配备了系统评估的全面指标。我们对几种知识编辑方法进行了实验，表明知识编辑有可能使 LLM 解毒，同时对总体表现的影响有限 ...

0 0 0 0 2025/10/25 arXiv:2403.14472v5 2967832893

Prototypical Information Bottlenecking and Disentangling for Multimodal Cancer Survival Prediction

多模态学习显着有利于癌症生存预测，尤其是病理图像和基因组数据的整合。尽管多模态学习在癌症生存预测方面具有优势，但多模态数据中的大量冗余使其无法提取有区别性和紧凑的信息：（1）大量与模态内任务无关的信息模糊了可区分性，特别是对于具有许多病理学斑块和基因组数据中数千条通路的十亿像素全幻灯片图像（WSI），导致“模态内” （2）模态间的重复信息在多模态数据的表示中占主导地位，这使得模态特定的信息容易被忽略，从而导致“模态间冗余”问题 ...

0 0 0 0 2025/10/24 arXiv:2401.01646v2 zy_

Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

构建跨 Web、桌面和移动环境通用的代理仍然是一个开放的挑战，因为先前的系统依赖于限制跨平台部署的特定于环境的接口。我们推出了 Surfer 2，这是一种纯粹通过视觉观察进行操作的统一架构，可在所有三种环境中实现最先进的性能。 Surfer 2 集成了分层上下文管理、解耦规划和执行以及具有自适应恢复的自我验证，从而实现了长期任务范围内的可靠操作 ...

0 0 0 0 2025/10/24 arXiv:2510.19949v1 dqyzhwk

RECALL: REpresentation-aligned Catastrophic-forgetting ALLeviation via Hierarchical Model Merging

我们揭示了大语言模型（LLM）中的内部表示可以作为所学知识的可靠代理，并提出了 RECALL，这是一种新颖的表示感知模型合并框架，用于在无需访问历史数据的情况下进行持续学习。 RECALL 根据聚类典型样本的分层隐藏表示来计算模型间相似性，并执行自适应的分层参数融合以对齐模型之间的知识。这种设计能够在浅层中保留领域通用特征，同时允许在更深的层中进行特定于任务的适应 ...

0 0 0 0 2025/10/24 arXiv:2510.20479v1 kavin

SparseWorld: A Flexible, Adaptive, and Efficient 4D Occupancy World Model Powered by Sparse and Dynamic Queries

语义占用因其捕获丰富空间语义的能力而成为世界模型中的强大表示。然而，大多数现有的占用世界模型依赖于静态和固定的嵌入或网格，这本质上限制了感知的灵活性。此外，它们在网格上的“就地分类”表现出与真实http URL的动态和连续性质潜在的不一致。在本文中，我们提出了SparseWorld，一种新颖的4D占用世界模型，它灵活、自适应且高效，由稀疏和动态查询提供支持 ...

0 0 0 0 2025/10/24 arXiv:2510.17482v2 xubiao

MemER: Scaling Up Memory for Robot Control via Experience Retrieval

人类通常依靠记忆来执行任务，但大多数机器人策略缺乏这种能力；我们的目标是赋予机器人策略同样的能力。在协变量平移下，对长期观测历史的天真调节在计算上是昂贵且脆弱的，而对历史的不加区别的子采样会导致不相关或冗余的信息。我们提出了一个分层策略框架，其中高级策略经过训练，可以根据其经验选择和跟踪先前的相关关键帧 ...

0 0 0 0 2025/10/24 arXiv:2510.20328v1 anguotai

FreeKD: Knowledge Distillation via Semantic Frequency Prompt

知识蒸馏（KD）已成功应用于各种任务，主流方法通常通过空间模仿损失来提升学生模型。然而，教师模型在空间域中引起的连续下采样是一种腐败，阻碍了学生分析需要模仿哪些特定信息，从而导致准确性下降。为了更好地理解损坏的特征图的潜在模式，我们将注意力转移到频域 ...

0 0 0 0 2025/10/24 arXiv:2311.12079v2 DamnMan

VcLLM: Video Codecs are Secretly Tensor Codecs

随着大型语言模型（LLM）的参数大小不断扩大，对大内存占用和高通信带宽的需求已成为LLM训练和推理的重大瓶颈。为了缓解这些瓶颈，人们提出了各种张量压缩技术来减小数据大小，从而减轻内存需求和通信压力。我们的研究发现，视频编解码器尽管最初是为压缩视频而设计的，但在压缩各种类型的张量时表现出出色的效率 ...

0 0 0 0 2025/10/24 arXiv:2407.00467v1 allen1000

SoREX: Towards Self-Explainable Social Recommendation with Relevant Ego-Path Extraction

事实证明，社交推荐可以利用社交网络有效解决用户-项目交互建模中的数据稀疏问题。最近图神经网络（GNN）的集成进一步提高了当代社交推荐算法的预测准确性。然而，许多基于 GNN 的社交推荐方法缺乏为其预测提供有意义的解释的能力 ...

0 0 0 0 2025/10/24 arXiv:2510.00080v1 QingXiang

MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models

通过扩展模型大小和训练数据，大型视觉语言模型 (LVLM) 在多模式任务中表现出了卓越的性能。然而，这些密集的 LVLM 会产生大量的计算成本，并激发了对稀疏专家混合 (MoE) 架构的探索。虽然 MoE 提高了参数效率，但有效应用 MoE 来同时对 LVLM 中的模态特定特征和跨模态关联进行建模仍然具有挑战性 ...

0 0 0 0 2025/10/24 arXiv:2508.09779v1 YGking