目的:开发一种高通量生物医学关系提取系统,以可扩展和证据的方式利用大语言模型(LLM)的阅读理解能力和生物医学世界知识。方法:我们将关系提取任务制定为大型语言模型的二元分类。具体来说, LLM 根据外部语料库及其世界知识做出决定,给出判断的理由进行事实验证 ...
领先的全球海洋预报系统(GOFS)使用物理驱动的数值预报模型,通过昂贵的计算来求解偏微分方程。最近,特别是在大气天气预报中,数据驱动模型已显示出将环境预报速度提高几个数量级的巨大潜力,但仍然没有数据驱动的 GOFS 与数值 GOFS 的预测精度相匹配。在本文中,我们提出了第一个数据驱动的1/12°分辨率全球海洋涡旋分辨预报模型“羲和”,该模型是根据法国墨卡托海洋国际公司25年的每日GLORYS12再分析数据建立的 ...
继大型语言模型(LLM)取得重大成就之后,研究人员将上下文学习用于文本分类任务。然而,这些研究侧重于单语言、单轮分类任务。在本文中,我们介绍了 LARA(语言自适应检索增强语言模型),旨在提高六种语言的多轮分类任务的准确性,适应聊天机器人交互中的众多意图 ...
本文探讨了将 GPT-3.5 和 GPT-4 等大型语言模型 (LLM) 集成到本体细化过程中,特别关注 OntoClean 方法。 OntoClean 对于评估本体的形而上学质量至关重要,涉及将元属性分配给类并验证一组约束的两步过程 ...
本体对齐是语义网中用于检测不同本体之间关系的关键过程,传统上侧重于通过类标签和属性比较来识别所谓的“简单”一对一关系。对更复杂的对齐的更实际有用的探索仍然是自动化的难题,因此很大程度上尚未得到充分探索,即 ...
本体匹配(OM)是知识集成中的一项关键任务,其中对齐异构本体有助于数据互操作和知识共享。传统的 OM 系统通常依赖于专家知识或预测模型,对大型语言模型 (LLM) 潜力的探索有限。我们提出了 LLMs4OM 框架,这是一种评估 LLM 在 OM 任务中有效性的新方法 ...
近年来,大型语言模型(LLM)在许多领域得到了快速发展。作为一项经典的机器学习任务,时间序列预测最近得到了 LLM 的大力推动。然而, LLM 在该领域的偏好存在研究差距 ...
基础模型已成为各种人工智能应用中的关键组件,并在自然语言处理和其他几个领域取得了巨大成功。与此同时,图机器学习领域正在见证从浅层方法到更复杂的深度学习方法的范式转变。基础模型的泛化和适应能力促使图机器学习研究人员讨论开发新的图学习范式的潜力 ...
在这项工作中,我们明确表明,现代 LLM 倾向于首先生成正确的事实,然后“偏离”并随后生成错误的事实:偶尔会观察到这种情况,但从未正确测量过。我们开发了一个语义漂移分数,用于衡量生成文本中正确和不正确事实之间的分离程度,并在生成维基百科风格的传记时证实我们的假设。这种先正确后错误的生成模式表明,通过了解何时停止生成可以提高事实准确性 ...
法律判决预测(LJP)应用自然语言处理(NLP)技术,根据事实描述自动预测判决结果。最近,大规模公共数据集和 NLP 研究的进展导致人们对 LJP 的兴趣日益浓厚。尽管机器和人类的表现之间存在明显差距,但在各种基准数据集中仍取得了令人印象深刻的结果 ...