视觉和语言导航(VLN)是体现代理的重要技能,可以按照自然语言说明在3D环境中导航。高性能导航模型需要大量的培训数据,手动注释数据的高成本严重阻碍了该领域。因此,一些以前的方法将轨迹视频转化为用于扩展数据的分步说明,但是此类说明与用户的通信方式不太匹配,这些通信方式简要描述了目的地或状态特定的需求 ...
3D场景的分解重建,具有完整的形状和内部所有对象的详细纹理,这对于下游应用程序很有趣,但仍然具有挑战性,尤其是以稀疏视图作为输入。最近的方法结合了语义或几何正规化以解决此问题,但是它们在不限制的地区遭受了重大降解,并且未能恢复被阻塞的区域。我们认为解决此问题的关键在于补充这些领域的缺失信息 ...
大型语言模型(LLM)在许多情况下都表现出令人印象深刻的功能,但它们的性能部分取决于提示的选择。过去的研究重点是优化特定于任务的提示。但是,对优化提示中包含的一般说明的关注要少得多,即系统提示 ...
开发用于交织的图像文本数据的生成模型既具有研究和实用价值。它需要模型来理解交错的序列,然后生成图像和文本。但是,现有尝试受到固定数量的视觉 Token 无法有效捕获图像细节的问题的限制,这在多图像场景中尤其有问题 ...
文本到 SQL 使非专家能够将其自然语言 (NL) 问题转换为结构化查询语言 (SQL) 查询,从而简化了数据库交互。虽然大型语言模型 (LLM) 的最新进展改进了零样本文本到 SQL 范例,但现有方法在处理大规模、动态变化的数据库时面临可扩展性挑战。本文介绍了 DBCopilot,这是一个框架,它通过采用紧凑而灵活的 copilot 模型来跨海量数据库进行路由来解决这些挑战 ...
多目标增强学习(MORL)试图制定同时优化多个冲突目标的政策,但需要广泛的在线互动。 Offline Morl通过对预采用的数据集进行培训,从而提供了有希望的解决方案,以推广到部署的任何偏好。但是,现实世界中的离线数据集通常是保守和狭窄的分布,未能全面涵盖偏好,从而导致出现偏离(OOD)偏好领域 ...
从数据分布的简化连续性假设中得出的高级生成模型(例如,扩散模型),尽管表现出有希望的进度,但由于分子几何的多模态性和对噪声敏感性的性质,很难直接应用于几何生成应用 ...
蛋白质家族设计是一种有希望的替代方法,它通过结合了从头蛋白设计的优势和基于突变的基于此论文的优势,我们提出了本文,我们提出了profilebfn,概述贝叶斯流动网络,用于蛋白质家族的特殊生成性建模。 ProfileBFN从MSA配置文件的角度扩展了离散的贝叶斯流动网络,可以通过将其作为退化曲线来对单个蛋白质序列进行训练,从而通过避免大规模的MSA数据构建和培训来实现有效的蛋白质家庭设计。经验结果表 ...