我们提出了goarflow,这是一种端到端的自主驾驶方法,用于生成高质量的多模式轨迹。在自主驾驶的情况下,很少有一个合适的轨迹。最近的方法越来越集中于建模多峰轨迹分布 ...
结构化的图像理解,例如解释表和图表,需要从图像中的各种结构和文本进行战略性重新聚焦,从而形成推理顺序以得出最终答案。但是,当前的多模式大语言模型(LLMS)缺乏这种多名选择性的关注能力。在这项工作中,我们介绍了Repocus,这是一个简单而有效的框架,它通过通过代码在输入图像上执行视觉编辑,转移和完善其视觉焦点来使多模式LLMS具有生成“视觉思想”的能力 ...
对于当前模型而言,很难自动检测与周围环境混合的对象。一个主要的挑战是,这种前景对象和背景环境之间的内在相似性使深层模型提取的特征无法区分。为了克服这一挑战,理想的模型应该能够从给定场景中寻求宝贵的额外线索,并将其纳入代表共同增强的联合学习框架中 ...
局部特征匹配在计算机视觉领域有着广泛的应用,涵盖图像检索、3d重建和对象识别等领域。然而,由于视点和照明变化等因素,提高匹配的准确性和鲁棒性仍然存在挑战。近年来,深度学习模型的引入引发了对局部特征匹配技术的广泛探索... ...
多模式的大型语言模型(MLLM)最近通过利用Vision Foundation模型将图像的核心概念编码为表示形式,从而表现出令人印象深刻的通用能力。然后将它们与指令结合在一起,并由语言模型处理以产生高质量的响应。尽管在增强语言组成部分方面取得了重大进展,但挑战仍在最佳地融合了特定于任务适应性的语言模型中的视觉编码 ...
蛋白质配体的复合结构已用于设计基准机器学习方法,这些方法执行与药物设计相关的重要任务,例如受体结合位点检测,小分子对接和结合亲和力预测。但是,这些方法通常仅在蛋白质的配体结合(或HOLO)构象上进行训练,因此当蛋白质结构处于其天然未结合构象(或APO)时,不能保证表现良好,这通常是可用于新鉴定的受体的构象。造成这种情况的主要原因是结合位点的局部结构通常在配体结合后发生变化 ...
人们对大型语言模型 (LLM) 在规划和推理任务中的作用存在相当大的困惑。一方面是过于乐观的说法,即 LLM 确实可以通过正确的提示或自我验证策略来完成这些任务。另一方面,也许有些过于悲观的说法,即 LLM 在计划/推理任务中的所有优势都只是将问题规范从一种句法格式转换为另一种句法格式,并将问题传递给外部符号求解器 ...
人类的日常活动可以简洁地叙述为视频流中的常规事件序列(例如,关闭警报),形成事件词汇 ...