多模式大语模型(MLLM)已成为自动化放射学报告生成(RRG)的有前途的方法。在这项工作中,我们系统地研究了3D MLLM的设计空间,包括视觉输入表示,投影仪,大语言模型(LLMS)和3D CT报告生成的微调技术。我们还介绍了两种基于知识的报告增强方法,这些方法将绿色评分的性能提高了10 \%,从而获得了MICCAI 2024 AMOS-MM挑战的第二名 ...
由于其高度的自由度和复杂的机制,对现代机器人的准确模拟仍然具有挑战性。神经模拟器已成为传统分析模拟器的有前途替代方案,能够有效预测复杂的动态并适应现实世界数据。但是,现有的神经模拟器通常需要特定于应用程序的培训,并且未能推广到新的任务和/或环境,这主要是由于全球状态的表示不足。在这项工作中,我们解决了学习可通用的神经模拟器的问题,该机器人构成刻有刚体的身体 ...
我们介绍了MapAnything,这是一种基于统一的 Transformer 的馈电模型,可摄取一个或多个图像以及可选的几何输入,例如相机内在,姿势,深度或部分重建,然后直接回归度量3D场景几何和摄影机。 mapanything利用多视图场景几何形状的分类表示,即 ...
检索增强发电(RAG)在增强语言模型的知识和减少AI生成幻觉方面表现出很强的能力,从而推动了其广泛使用。但是,需要多轮检索的复杂任务仍然具有挑战性,而没有良好的自我怀疑主义感,早期尝试往往过于乐观。当前的多轮破布系统即使已经检索到足够的信息,也可能会继续进行搜索,或者它们在没有足够的信息或知识的情况下可能会提供错误的答案 ...
我们描述了一个移动操作硬件和软件系统,能够自主执行真正的房屋中复杂的人级任务,此前通过在虚拟现实中的一个人进行了一次演示。这是通过高功能的移动操作机器人,全身任务空间混合位置/力控制,对场景的强大的密集视觉嵌入式表示链接的参数化原始词的教学以及教学行为的任务图来实现的。我们通过在多个实际房屋中执行各种任务的结果来证明该方法的鲁棒性 ...
预测现有事件上下文的后续事件是一项重要但具有挑战性的任务,因为它需要了解事件之间的基本关系。先前的方法建议从事件图检索关系特征,以增强事件相关的建模。但是,事件图的稀疏性可能会限制相关图信息的获取,从而影响模型性能 ...
早期发现肺癌是增强患者生存机会的最有希望的方法。计算机断层扫描(CT)图像中准确的肺结核检测是诊断肺癌的关键步骤。在本文中,灵感来自于在自然图像识别中成功使用深卷积神经网络(DCNN),我们提出了一种基于DCNN的新型肺结核检测方法 ...
我们提出了任何网段,这是一种新型的零照片网格部分分割方法,它克服了基于形状分析,基于学习的和当代方法的局限性。我们的方法分为两个阶段:多模式渲染和2d-to-3d举重。在第一阶段,网格的多视渲染通过片段单独处理以生成2D掩码 ...