最近的研究揭示了 Transformer 架构中位置偏差的各种表现形式,从“中间迷失”现象到注意力池,但对注意力掩模和位置编码如何塑造这些偏差的全面理论理解仍然难以捉摸。本文提出了一个用于分析多层注意力中位置偏差的图论框架。将注意力蒙版建模为有向图,我们根据 Token 的顺序位置量化 Token 如何与上下文信息交互。我们发现了两个关键的见解:首先,因果掩盖本质上使注意力偏向于早期的位置,因为更深层次的标记会越来越关注早期标记的上下文化表示。其次,我们描述了因果掩码和相对位置编码的竞争效应,例如衰减掩码和旋转位置编码(RoPE):虽然这两种机制都在个体注意力图中引入了基于距离的衰减,但它们在多个注意力层$\unicode{x2013}$上的聚合效应与因果掩码$\unicode{x2013}$相结合,导致了长期衰减效应和早期序列位置的累积重要性之间的权衡。通过受控数值实验,我们不仅验证了我们的理论发现,还重现了在现实世界的 LLM 中观察到的位置偏差。我们的框架为理解 Transformer 中的位置偏差、揭示注意机制组件的复杂相互作用并指导更明智的架构设计提供了原则基础 ...

0 1 0 0 2026/01/19 arXiv:2502.01951v4 cwwc26

即时工程已成为一种强大的技术,可引导大型语言模型 (LLM) 做出所需的响应,从而显着提高其在不同任务中的性能。除了静态预测器的作用之外, LLM 还越来越多地充当智能代理,能够推理、决策并动态适应复杂的环境。然而,即时工程的理论基础在很大程度上仍未得到探索。在本文中,我们介绍了一个正式的框架,证明 Transformer 模型在提供精心设计的提示时,可以通过在推理过程中模拟“虚拟”神经网络来充当可配置的计算系统。具体来说,输入提示有效地转化为相应的网络配置,使 LLM 能够动态调整其内部计算。在此结构的基础上,我们建立了 $\beta$ 次可微函数的逼近理论,证明 Transformer 在适当结构提示的指导下可以以任意精度逼近此类函数。此外,我们的框架为几种经验上成功的提示工程技术提供了理论依据,包括使用更长的结构化提示、过滤不相关信息、增强提示 Token 多样性以及利用多代理交互。通过将 LLM 构建为适应性强的智能体而不是静态模型,我们的研究结果强调了它们自主推理和解决问题的潜力,为即时工程和人工智能智能体设计方面更稳健、更有理论基础的进步铺平了道路 ...

0 1 0 0 2026/01/19 arXiv:2503.20561v1 cwwc26

Despite being widely used to support clinical care, general-purpose large multimodal models (LMMs) have generally shown poor or inconclusive performance in medical image interpretation, particularly in pathology, where gigapixel images are used. However, prior studies have used either low-resolution thumbnails or random patches, which likely underestimated model performance. Here, we ask whether LMMs can be adapted to reason coherently and accurately in the evaluation of such images. In this study, we introduce Gigapixel Image Agent for Navigating Tissue (GIANT), the first framework that allows LMMs to iteratively navigate whole-slide images (WSIs) like a pathologist. Accompanying GIANT, we release MultiPathQA, a new benchmark, which comprises 934 WSI-level questions, encompassing five clinically-relevant tasks ranging from cancer diagnosis to open-ended reasoning. MultiPathQA also includes 128 questions, authored by two professional pathologists, requiring direct slide interpretation. Using MultiPathQA, we show that our simple agentic system substantially outperforms conventional patch- and thumbnail-based baselines, approaching or surpassing the performance of specialized models trained on millions of images. For example, on pathologist-authored questions, GPT-5 with GIANT achieves 62.5% accuracy, outperforming specialist pathology models such as TITAN (43.8%) and SlideChat (37.5%). Our findings reveal the strengths and limitations of current foundation models and ground future development of LMMs for expert reasoning in pathology.

0 0 0 0 2026/01/19 arXiv:2511.19652v1 kxdfn

Wang 和 Xu 已知,在给定其谱及其补图谱的情况下,简单图被表征为同构的充分条件。本注释在存在循环的情况下建立了一个相关的充分条件:如果游走矩阵具有无方行列式,则该图的特征在于其广义谱。证明包括关于对称积分矩阵的一般结果 ...

0 0 0 0 2026/01/19 arXiv:2511.19625v1 kxdfn

本文重新审视了单级检测器的特征金字塔网络(FPN),并指出 FPN 的成功归因于其对目标检测中优化问题的分而治之的解决方案,而不是多尺度特征融合。从优化的角度来看,我们引入了另一种方法来解决问题,而不是采用复杂的特征金字塔 - {\em仅利用一级特征进行检测}。基于简单高效的解决方案,我们提出了 You Only Look One-level Feature (YOLOF)。在我们的方法中,提出了两个关键组件:扩张编码器和均匀匹配,并带来了相当大的改进。 COCO 基准上的大量实验证明了所提出模型的有效性。我们的 YOLOF 取得了与特征金字塔对应的 RetinaNet 相当的结果,同时速度提高了 2.5 倍。在没有 Transformer 层的情况下,YOLOF 可以以单级特征方式匹配 DETR 的性能,并且训练周期少 7 倍。图像大小为 $608\times608$,YOLOF 在 2080Ti 上以 60 fps 运行时达到 44.3 mAP,比 YOLOv4 快 $13\%$。代码可在 \url{此 https URL} 获取 ...

0 0 0 0 2026/01/19 arXiv:2103.09460v1 SGN001

我们提出了一种将迈尔斯-布里格斯类型指标 (MBTI) 人格特质集成到大型语言模型 (LLM) 中的新颖方法,解决个性化人工智能中人格一致性的挑战。我们的方法“机器思维”涉及两阶段微调和直接偏好优化 (DPO),以将 MBTI 特征嵌入到 LLM 中。这种方法确保模型将这些特征内化,提供稳定且一致的个性特征。我们展示了模型在各个领域的有效性,显示了模型性能与其各自的 MBTI 特征之间的一致性。该论文强调了在人格数据集开发和 LLM 人格整合的新训练方法方面的重大贡献,增强了个性化人工智能应用的潜力。我们还在 \url{this https URL} 开源了我们的模型和部分数据 ...

0 0 0 0 2026/01/18 arXiv:2312.12999v4 kk1943

多模态学习在各个领域变得越来越重要,提供了整合来自不同来源的数据的能力,例如图像、文本和个性化记录,这在医学领域经常观察到。然而,在缺少某些模态的情况下,许多现有框架难以适应任意模态组合,通常严重依赖于单一模态或完整数据。这种对潜在模态组合的监督限制了它们在现实世界中的适用性。为了应对这一挑战,我们提出了 Flex-MoE(专家的灵活混合),这是一种新框架,旨在灵活地合并任意模态组合,同时保持对丢失数据的鲁棒性。 Flex-MoE 的核心思想是首先使用一个新的缺失模态库来解决缺失的模态,该库将观察到的模态组合与相应的缺失模态组合集成在一起。接下来是独特设计的 Sparse MoE 框架。具体来说,Flex-MoE 首先使用所有模态的样本来训练专家,通过广义路由器($\mathcal{G}$-Router)注入广义知识。然后,$\mathcal{S}$-Router 通过将 top-1 门分配给与观察到的模态组合相对应的专家来专门处理更少的模态组合。我们在 ADNI 数据集(包含阿尔茨海默病领域的四种模式)以及 MIMIC-IV 数据集上评估 Flex-MoE。结果证明了 Flex-MoE 的有效性,突显了其在不同缺失模态场景中对任意模态组合进行建模的能力。代码可从此 https URL 获取 ...

0 0 0 0 2026/01/18 arXiv:2410.08245v2 lllianghe_123

从任意角度渲染逼真的头部头像对于虚拟现实等各种应用至关重要。尽管之前基于神经辐射场(NeRF)的方法可以取得令人印象深刻的结果,但它们缺乏保真度和效率。最近使用 3D 高斯分布 (3DGS) 的方法提高了渲染质量和实时性能,但仍然需要大量存储开销。在本文中,我们介绍了一种名为 GraphAvatar 的方法,该方法利用图神经网络 (GNN) 为头部头像生成 3D 高斯。具体来说,GraphAvatar 训练几何 GNN 和外观 GNN,以从跟踪网格生成 3D 高斯的属性。因此,我们的方法可以存储 GNN 模型而不是 3D 高斯模型,从而将存储开销显着降低至仅 10MB。为了减少面部跟踪错误的影响,我们还提出了一种新颖的图形引导优化模块,用于在训练期间细化面部跟踪参数。最后,我们引入了用于后处理的 3D 感知增强器,以提高渲染质量。我们进行了全面的实验来证明 GraphAvatar 的优势,在视觉保真度和存储消耗方面超越现有方法。消融研究揭示了渲染质量和模型大小之间的权衡。代码将发布在:此 https URL ...

0 0 0 0 2026/01/18 arXiv:2412.13983v1 XXabi77

从多视图视频创建高保真头部头像是许多 AR/VR 应用程序的核心问题。然而,现有的方法通常很难同时获得所有不同头部组件的高质量渲染,因为它们使用一种表示来对具有截然不同特征的组件(例如,皮肤与头发)进行建模。在本文中,我们提出了一种混合网格高斯头部头像(MeGA),它可以用更合适的表示来对不同的头部组件进行建模。具体来说,我们选择增强的 FLAME 网格作为我们的面部表示,并预测 UV 位移图以提供每顶点偏移,以改进个性化几何细节。为了实现逼真的渲染,我们使用延迟神经渲染获得面部颜色,并将神经纹理分解为三个有意义的部分。对于头发建模,我们首先使用 3D 高斯溅射构建静态规范头发。进一步应用刚性变换和基于 MLP 的变形场来处理复杂的动态表达式。与我们的遮挡感知混合相结合,MeGA 可为整个头部生成更高保真度的渲染,并自然支持更多下游任务。 NeRSemble 数据集上的实验证明了我们设计的有效性,优于以前最先进的方法并支持各种编辑功能,包括发型改变和纹理编辑 ...

0 0 0 0 2026/01/18 arXiv:2404.19026v1 XXabi77

尽管提供了卓越的性能,但开源大型语言模型 (LLM) 很容易被滥用。为了解决这个问题,最近的工作提出了 LLM 指纹识别方法来识别可疑申请背后的特定来源 LLM 。然而,这些方法无法提供隐秘且可靠的指纹验证。在本文中,我们提出了一种新颖的LLM指纹方案,即CoTSRF,它利用思想链(CoT)作为LLM的指纹。 CoTSRF 首先通过使用精心设计的 CoT 查询来查询源 LLM,从而收集来自源 LLM 的响应。然后,它应用对比学习来训练 CoT 提取器,从响应中提取 CoT 特征(即指纹)。最后,CoTSRF 通过将源 LLM 和可疑 LLM 的 CoT 特征之间的 Kullback-Leibler 差异与经验阈值进行比较来进行指纹验证。已经进行了各种实验来证明我们提出的 CoTSRF 对于指纹 LLM 的优势,特别是在隐秘且强大的指纹验证方面 ...

0 0 0 0 2026/01/18 arXiv:2505.16785v1 admin1