在科学研究及其应用中,科学文献分析至关重要,因为它使研究人员能够以他人的工作为基础。然而,科学知识的快速增长导致学术文章大量增加,使得深入的文献分析变得越来越具有挑战性和耗时。大型语言模型(LLM)的出现为应对这一挑战提供了一种新方法 ...
大型语言模型 (LLM) 在代码相关任务方面取得了显着进步,但许多 LLM 将代码视为简单序列,忽略了其结构化本质。我们引入了 AST-T5,这是一种新颖的预训练范例,它利用抽象语法树 (AST) 来增强代码生成、转译和理解。使用动态编程,我们的 AST 感知分段保留了代码结构,而我们的 AST 感知跨度损坏目标使模型能够重建各种代码结构 ...
自动化是当代材料发现的基石之一。贝叶斯优化 (BO) 是此类工作流程的重要组成部分,使科学家能够利用先前的领域知识来有效探索大型分子空间。虽然此类先验知识可以采取多种形式,但人们对封装在大型语言模型 (LLM) 中的辅助科学知识进行了大肆宣传 ...
全景场景图(PSG)是场景图生成(SGG)中的一项具有挑战性的任务,旨在使用全景分割而不是框来创建更全面的场景图表示。与SGG相比,PSG有几个具有挑战性的问题:像素级分段输出和全关系探索(它还考虑了事物和事物的关系)。因此,当前的 PSG 方法性能有限,阻碍了下游任务或应用程序 ...
多模态融合的固有挑战是精确捕获跨模态相关性并灵活地进行跨模态交互。为了充分释放每种模态的价值并减轻低质量多模态数据的影响,动态多模态融合成为一种有前景的学习范式。尽管它被广泛使用,但该领域的理论依据仍然明显缺乏 ...
从图结构输入(例如场景图)生成图像具有独特的挑战性,因为将图中的节点和连接与图像中的对象及其关系对齐非常困难。大多数现有方法通过使用场景布局来解决这一挑战,场景布局是场景图的图像表示,旨在捕获场景图像的粗糙结构。由于场景布局是手动制作的,因此与图像的对齐可能无法完全优化,从而导致生成的图像与原始场景图之间的合规性不理想 ...
大型语言模型(LLM)给人类生活带来了根本性的改变。注意力机制是所有 LLM 的关键组成部分之一,例如 BERT、GPT-1、Transformers、GPT-2、3、3.5 和 4 ...
我们提出了快速语言图像预训练(FLIP),这是一种简单且更有效的 CLIP 训练方法。我们的方法在训练过程中随机屏蔽并删除大部分图像块。掩码允许我们在相同的挂钟时间下从更多的图像文本对中学习,并在每次迭代时对比更多的样本与相似的内存占用 ...