图神经网络(GNN)在各种化学相关任务中表现出了良好的性能。然而,传统的图仅模拟分子中的成对连接,无法充分表示多中心键和共轭结构等高阶连接。为了应对这一挑战,我们引入分子超图并提出分子超图神经网络(MHNN)来预测有机半导体的光电特性,其中超边代表共轭结构。针对不规则高阶连接设计了通用算法,可以有效地操作具有各种阶超边的分子超图。结果表明,MHNN 在 OPV、OCELOTv1 和 PCQM4Mv2 数据集的大多数任务上优于所有基线模型。值得注意的是,MHNN 在没有任何 3D 几何信息的情况下实现了这一目标,超越了利用原子位置的基线模型。此外,MHNN 在有限的训练数据下比预训练的 GNN 取得了更好的性能,凸显了其出色的数据效率。这项工作为与高阶连接相关的更一般的分子表示和属性预测任务提供了一种新策略 ...

0 0 0 0 2025/12/05 arXiv:2312.13136v2 zy_

反应虚拟筛选和发现是化学和材料科学领域的基本挑战,传统的图神经网络 (GNN) 很难对多反应物相互作用进行建模。在这项工作中,我们提出了 ChemHGNN,这是一种超图神经网络(HGNN)框架,可以有效捕获反应网络中的高阶关系。与需要为多反应物反应构建完整图的 GNN 不同,ChemHGNN 自然地通过超边对多反应物反应进行建模,从而实现更具表现力的反应表示。为了解决组合爆炸、模型崩溃和化学无效负样本等关键挑战,我们引入了反应中心感知负采样策略(RCNS)和结合分子、反应和超图级特征的分层嵌入方法。 USPTO 数据集上的实验表明,ChemHGNN 显着优于 HGNN 和 GNN 基线,特别是在大规模环境中,同时保持了可解释性和化学合理性。我们的工作将 HGNN 确立为用于反应虚拟筛选和发现的 GNN 的优越替代品,为加速反应发现提供了化学信息框架 ...

0 0 0 0 2025/12/03 arXiv:2506.11041v1 zy_

为了利用全玻片图像和转录组数据改进癌症生存的预测,捕获模态共享和模态特异性信息至关重要。然而,多模态框架经常将这些表示纠缠在一起,限制了可解释性并可能抑制判别性特征。为了解决这个问题,我们提出了解缠结和可解释的多模态注意力融合(DIMAF),这是一种多模态框架,它在基于注意力的融合机制中分离模态内和模态间的交互,以学习不同的模态特定和模态共享表示。我们引入了基于距离相关性的损失,以促进这些表示之间的解开,并整合沙普利附加解释来评估它们对生存预测的相对贡献。我们在四个公共癌症生存数据集上评估了 DIMAF,与当前最先进的多模态模型相比,性能相对平均提高了 1.85%,解缠度提高了 23.7%。除了提高性能之外,我们的可解释框架还可以更深入地探索癌症生物学模式之间和内部的潜在相互作用 ...

0 0 0 0 2025/11/30 arXiv:2503.16069v2 zy_

随着人们对预训练视觉语言模型(VLM)(例如 CLIP)的日益关注,人们在许多下游任务上投入了大量精力,特别是在测试时间适应(TTA)方面。然而,以前的工作只关注文本模态中的原型学习,而忽略了类名中模糊的语义。这些模糊性导致文本原型不足以捕捉视觉概念,从而导致性能有限。为了解决这个问题,我们引入了 \textbf{ProtoMM},这是一个免训练框架,可构建多模态原型以在测试期间适应 VLM。通过将原型视为文本描述和视觉粒子上的离散分布,ProtoMM 能够结合多模态特征进行全面的原型学习。更重要的是,视觉粒子会随着测试流的流动而动态更新。这使得我们的多模式原型能够不断地从数据中学习,从而增强其在未见过的场景中的通用性。此外,我们通过将原型和测试图像的语义距离表述为最佳传输问题来量化原型和测试图像的重要性。对 15 个零样本基准进行的广泛实验证明了我们方法的有效性,与 ImageNet 及其变体数据集上最先进的方法相比,平均准确度提高了 1.03% ...

0 0 0 0 2025/11/24 arXiv:2507.03657v1 zy_

多模态学习旨在理解和分析多种模态的信息,近年来在监督机制方面取得了实质性进展。然而,对数据的严重依赖加上昂贵的人工注释阻碍了模型的扩展。同时,鉴于大规模未注释数据的可用性,自监督学习已成为缓解注释瓶颈的一种有吸引力的策略。基于这两个方向,自监督多模态学习(SSML)提供了从原始多模态数据中学习的方法。在本次调查中,我们对 SSML 的最新技术进行了全面回顾,其中阐明了使用多模态数据进行自监督学习所固有的三个主要挑战:(1)从没有标签的多模态数据中学习表示,(2)不同模态的融合,以及(3)使用未对齐的数据进行学习。然后,我们详细介绍针对这些挑战的现有解决方案。具体来说,我们考虑(1)通过自监督从多模态未标记数据中学习的目标,(2)从不同多模态融合策略角度的模型架构,以及(3)用于粗粒度和细粒度对齐的无对学习策略。我们还回顾了 SSML 算法在医疗保健、遥感和机器翻译等不同领域的实际应用。最后,我们讨论 SSML 的挑战和未来方向。可以在以下位置找到相关资源的集合:此 https URL ...

0 0 0 0 2025/11/20 arXiv:2304.01008v3 zy_

医学图像与临床背景的整合对于生成准确且临床可解释的放射学报告至关重要。然而,当前的自动化方法通常依赖于资源密集型大型语言模型(LLM)或静态知识图,并面临现实临床数据中的两个基本挑战:(1)缺失模式,例如不完整的临床背景,以及(2)特征纠缠,其中混合特定模式和共享信息会导致不理想的融合和临床上不忠实的幻觉结果。为了应对这些挑战,我们提出了 DiA-gnostic VLVAE,它通过解缠结对齐实现了可靠的放射学报告。我们的框架旨在通过使用基于专家混合 (MoE) 的视觉语言变分自动编码器 (VLVAE) 来解开共享和特定于模态的特征,从而能够适应缺失的模态。受约束的优化目标强制这些潜在表示之间的正交性和对齐,以防止次优融合。然后,紧凑的 LLaMA-X 解码器使用这些解开的表示来有效地生成报告。在 IU X-Ray 和 MIMIC-CXR 数据集上,DiA 的 BLEU@4 得分分别为 0.266 和 0.134。实验结果表明,所提出的方法明显优于最先进的模型 ...

0 0 0 0 2025/11/13 arXiv:2511.05968v1 zy_

多模态表示学习寻求关联和分解多种模态中固有的信息。通过将特定于模态的信息与跨模态共享的信息分开,我们可以提高可解释性和稳健性,并实现下游任务,例如生成反事实结果。分离这两种类型的信息具有挑战性,因为它们通常深深地纠缠在许多现实世界的应用程序中。我们提出了解缠结自监督学习(DisentangledSSL),这是一种用于学习解缠结表示的新颖的自监督方法。我们对每个解纠缠表示的最优性进行了全面分析,特别关注先前工作中未涵盖的场景,即无法达到所谓的最小必要信息(MNI)点。我们证明,DisentangledSSL 成功地学习了多个合成和真实数据集上的共享和特定模态特征,并且在各种下游任务上始终优于基线,包括视觉语言数据的预测任务以及生物数据的分子表型检索任务。该代码可从此 https URL 获取 ...

0 0 0 0 2025/11/13 arXiv:2410.23996v2 zy_

多模态分子表示学习联合对分子图及其文本描述进行建模,通过整合结构和语义信息,对药物毒性、生物活性和理化性质进行更稳健和可靠的预测,从而提高预测准确性和可解释性。然而,现有的多模态方法存在两个关键限制:(1)它们通常仅在最终编码器层执行跨模态交互,从而忽略了层次语义依赖性; (2)它们缺乏统一的原型空间来实现模态之间的稳健对齐。为了解决这些限制,我们提出了 ProtoMol,一种原型引导的多模式框架,可以实现分子图和文本描述之间的细粒度集成和一致的语义对齐 ...

0 0 0 0 2025/11/05 arXiv:2510.16824v1 zy_

多模态情感分析已成为理解不同沟通渠道中人类情感的重要工具。虽然现有方法取得了重大进展,但它们往往难以有效地区分和整合模态共享信息和模态特定信息,从而限制了多模态学习的性能。为了应对这一挑战,我们提出了多模态情感分析分层自适应专家(HAEMSA),这是一种协同结合进化优化、跨模态知识转移和多任务学习的新颖框架 ...

0 0 0 0 2025/11/03 arXiv:2503.22715v1 zy_

生物分子建模与自然语言(BL)的整合已成为人工智能、化学和生物学交叉领域的一个有前途的跨学科领域。这种方法利用文本数据源中包含的生物分子的丰富、多方面的描述来增强我们的基本理解并实现下游计算任务,例如生物分子属性预测。通过自然语言表达的细致入微的叙述与通过各种分子建模技术描述的生物分子的结构和功能细节的融合,为全面表示和分析生物分子开辟了新的途径 ...

0 0 0 0 2025/11/03 arXiv:2403.01528v2 zy_