视觉和语言导航(VLN)是体现代理的重要技能,可以按照自然语言说明在3D环境中导航。高性能导航模型需要大量的培训数据,手动注释数据的高成本严重阻碍了该领域。因此,一些以前的方法将轨迹视频转化为用于扩展数据的分步说明,但是此类说明与用户的通信方式不太匹配,这些通信方式简要描述了目的地或状态特定的需求 ...
0 0 0 2025/05/03 arXiv:2502.11142v3 0mind
3D场景的分解重建,具有完整的形状和内部所有对象的详细纹理,这对于下游应用程序很有趣,但仍然具有挑战性,尤其是以稀疏视图作为输入。最近的方法结合了语义或几何正规化以解决此问题,但是它们在不限制的地区遭受了重大降解,并且未能恢复被阻塞的区域。我们认为解决此问题的关键在于补充这些领域的缺失信息 ...
0 0 0 2025/05/03 arXiv:2503.14830v1 assvga
大型语言模型(LLM)在许多情况下都表现出令人印象深刻的功能,但它们的性能部分取决于提示的选择。过去的研究重点是优化特定于任务的提示。但是,对优化提示中包含的一般说明的关注要少得多,即系统提示 ...
0 0 0 2025/05/03 arXiv:2410.14826v2 duckuncle3
开发用于交织的图像文本数据的生成模型既具有研究和实用价值。它需要模型来理解交错的序列,然后生成图像和文本。但是,现有尝试受到固定数量的视觉 Token 无法有效捕获图像细节的问题的限制,这在多图像场景中尤其有问题 ...
0 0 0 2025/05/03 arXiv:2401.10208v2 Jakatara
文本到 SQL 使非专家能够将其自然语言 (NL) 问题转换为结构化查询语言 (SQL) 查询,从而简化了数据库交互。虽然大型语言模型 (LLM) 的最新进展改进了零样本文本到 SQL 范例,但现有方法在处理大规模、动态变化的数据库时面临可扩展性挑战。本文介绍了 DBCopilot,这是一个框架,它通过采用紧凑而灵活的 copilot 模型来跨海量数据库进行路由来解决这些挑战 ...
0 0 0 2025/05/03 arXiv:2312.03463v3 xmin
多目标增强学习(MORL)试图制定同时优化多个冲突目标的政策,但需要广泛的在线互动。 Offline Morl通过对预采用的数据集进行培训,从而提供了有希望的解决方案,以推广到部署的任何偏好。但是,现实世界中的离线数据集通常是保守和狭窄的分布,未能全面涵盖偏好,从而导致出现偏离(OOD)偏好领域 ...
0 0 0 2025/05/03 arXiv:2408.15501v1 微生心月
从数据分布的简化连续性假设中得出的高级生成模型(例如,扩散模型),尽管表现出有希望的进度,但由于分子几何的多模态性和对噪声敏感性的性质,很难直接应用于几何生成应用 ...
0 0 0 2025/05/02 arXiv:2403.15441v1 alex666
蛋白质家族设计是一种有希望的替代方法,它通过结合了从头蛋白设计的优势和基于突变的基于此论文的优势,我们提出了本文,我们提出了profilebfn,概述贝叶斯流动网络,用于蛋白质家族的特殊生成性建模。 ProfileBFN从MSA配置文件的角度扩展了离散的贝叶斯流动网络,可以通过将其作为退化曲线来对单个蛋白质序列进行训练,从而通过避免大规模的MSA数据构建和培训来实现有效的蛋白质家庭设计。经验结果表 ...
0 0 0 2025/05/02 arXiv:2502.07671v2 alex666

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)