微笑是分子结构的至关重要的文本表示,它引起了人们对预训练语言模型(LMS)的基础的重大关注。但是,大多数现有的预训练的微笑LMS仅关注预训练期间的单次级别监督,但未能充分利用分子的亚结构信息。这种限制使训练前任务过于简单,从而阻止了模型捕获更丰富的分子语义信息 ...
我们引入了针对小分子(FARM)的功能群体感知表示,这是一种新型的基础模型,旨在弥合微笑,自然语言和分子图之间的差距。农场的关键创新在于其功能性群体感知的 Token 化,它直接将功能组信息融入了微笑中,以详细的化学背景丰富了微笑。例如,我们不使用“ O”来表示所有氧原子,而是使用特定 Token ,例如“ O_ketone”和“ O_hydroxyl”来区分属于不同功能基团的氧原子 ...
分子表示学习对于许多与药物相关的应用是基础。大多数现有的分子预训练模型在使用单分子模态(微笑或图表表示)方面受到限制。为了有效利用这两种模式,我们认为捕获微笑和图之间的细粒“语义”至关重要,因为微妙的序列/图差可能会导致相反的分子特性 ...
我们试图根据特定的化学特性自动化分子的设计。用计算术语,此任务涉及分子图的连续嵌入和产生。我们的主要贡献是分子图的直接实现,这是先前通过生成线性微笑字符串而不是图形来完成的任务 ...
著名的SEQ2SEQ技术及其众多变体在许多任务(例如神经机器翻译,语义解析和数学单词问题解决)方面具有出色的性能。但是,这些模型要么仅将输入对象视为序列,同时忽略了用于编码的重要结构信息,要么只是将输出对象视为序列输出而不是用于解码的结构对象。在本文中,我们提出了一个新颖的图形神经网络,即由图形编码器和分层树解码器组成的Graph2Tree,它编码增强的图形结构化输入并解码树结构化的输出 ...
我们通过代数数据类型(ADT)引入了一种新颖的分子表示 - 通过遵守代数定律的较简单类型组合形成的复合数据结构。通过明确考虑表示形式的数据类型如何约束可以执行的操作,我们确保可以通过生成模型(带有示例的程序}和分数操作)执行有意义的推断。这与基于字符串的表示形式相反,在基于字符串的表示中,弦型操作只能间接对应于化学和物理分子特性,并且在最坏的情况下会产生毫无意义的输出 ...
药物 - 药物相互作用(DDIS)可能导致各种药理变化,这些变化可以归类为称为DDI事件(DDIE)的不同类别。近年来,以前未观察/看不见的ddies一直在出现,当看不见的课程在培训阶段没有标记的实例时,提出了新的分类任务,该阶段被标记为零拍摄的DDIE预测(ZS-DDIE)任务。但是,现有的计算方法并不直接适用于ZS-DDIE,该方法面临两个主要挑战:获得合适的DDIE表示并处理类不平衡问题 ...
大型语言模型(LLMS)表现出具有指导调整的概括性和指导遵循功能的显着概括。 LLM和指导调整的进步导致了大型视觉模型(LVLM)的发展。但是,在分子域中,LLM和指令调整的能力较少 ...
本文提出了一种预测有机光伏(OPV)设备的功率转换效率(PCE)的新方法,称为Glad:协同分子图和语言描述符,以增强PCE预测。由于缺乏高质量的实验数据,我们收集了一个由500对OPV供体和受体分子组成的数据集,以及它们相应的PCE值,我们将其用作我们预测模型的培训数据。在这种低数据制度中,从大型语言模型(LLMS)中学到的Glad Leverages在广泛的科学文献中汲取的属性以丰富分子结构表示,从而允许分子的多模式表示 ...
聚合物是由许多相同或相似单体的共价键合构成的高分子重量化合物,因此它们的3D结构很复杂,但表现出难以兑现的规律性。通常,聚合物的性能,例如可塑性,电导率,生物兼容性等,与其3D结构高度相关。但是,现有的聚合物属性预测方法在很大程度上依赖于从聚合物微笑序列(p-smiles字符串)中学到的信息,同时忽略了关键的3D结构信息,从而导致了次优性能 ...