高质量、大规模的语料库是构建基础模型的基石。在这项工作中,我们引入了 \textsc{MathPile},这是一个多样化且高质量的以数学为中心的语料库,包含约 95 亿个令牌 ...
Generative AI通过创建特定地点的城市布局并实现灵活的设计探索,为自动化城市规划提供了新的机会。但是,现有的方法通常很难按大规模生产现实和实用的设计。因此,我们适应了使用ControlNet扩展的最先进的稳定扩散模型,以生成以土地使用描述,基础设施和自然环境为条件的高保真卫星图像 ...
由于大语言模型(LLM)等大型语言模型和GPT-4的成功造成的爆炸性影响,最近有大量的工作表明,基础模型可用于解决各种各样的任务。但是,有非常有限的工作可以分享有关多代理计划的见解。通过结合多机构协调和计划的难度,多代理计划与其他领域不同,并且很难利用外部工具来促进所需的推理 ...
基于概念的可解释方法已成为可解释的AI中有前途的方法,因为它们可以以与人类推理保持一致的方式来解释模型。但是,它们在文本领域中的适应性仍然有限。大多数现有方法依赖于预定义的概念注释,无法发现看不见的概念,而没有监督的其他方法提取概念的其他方法通常会产生不直观地理解人类的解释,从而潜在地减少用户信任 ...
检测小物体是阻碍对象检测开发的主要障碍之一。通用对象检测器的性能在微小的对象检测任务上往往会大大恶化。在本文中,我们指出的是,基于锚的检测器中的先验盒或无锚检测器中的点是小物体的优化 ...
医疗开放域问题回答需要大量获得专业知识。最近的努力试图将知识与模型参数解脱,抵消建筑规模,并允许对常见的低资源硬件进行培训。检索到读取的范式已变得无处不在,模型预测基于来自外部存储库,例如PubMed,教科书和UMLS的相关知识文章 ...
我们提出了使用月球框架开发的Biolunar作为支持生物学分析的工具,并特别强调了分子水平的证据富集肿瘤学生物标志物发现。该平台集成了大型语言模型(LLM),以促进跨分布式证据空间之间的复杂科学推理,从而增强了在异质数据源上协调和推理的能力。 Biolunar在癌症研究中的实用性,利用模块化设计,可重复使用的数据访问和数据分析组件以及低代码用户界面,使所有编程水平的研究人员都可以构建支持LLM的科 ...
国家空间模型在自然语言处理(NLP)和最近的计算机视觉方面表现出了巨大的希望。本文介绍了一种利用Mamba和蒙版自动编码器网络的新方法,以在受监督和自我监督的学习中用于点云数据。我们提出了三个关键贡献,以增强曼巴在处理复杂点云结构中的能力 ...