Transformer 体系结构已在许多自然语言处理任务中取得成功。但是,它在医疗视野中的应用仍未得到探索。在这项研究中,我们介绍了UTNET,这是一种简单而强大的混合 Transformer 结构,将自我发作整合到卷积神经网络中,以增强医学图像分割 ...
GPT-4O样大型多模型(LMM)的出现提高了整合文本,视觉和语音方式的探索,以支持更灵活的多模式相互作用。现有的LMM通常是沿序列维度的模态的串联表示,并将其馈入大型语言模型(LLM)骨架。虽然序列维耦合对于模态积分很简单,但它通常很大程度上依赖于大规模数据来学习模态对齐 ...
世界模型是对人工通用情报(AGI)的重要组成部分,使智能代理能够通过模拟复杂的物理互动来预测未来的状态并计划行动。但是,现有的交互模型主要预测视觉观察,从而忽略了关键的隐藏状态,例如几何结构和空间连贯性。这会导致快速误差积累和时间不一致 ...
最近,类似 Transformer 的深度体系结构在表格数据问题上表现出强烈的性能。与传统模型不同,例如 ...
现有的大型语言模型基于LLM的建议方法面临着几个挑战,包括处理大型候选池的效率低下,对提示中的项目顺序的敏感性(“中间”现象中的“丢失”现象)差的可伸缩性差,以及由于随机负面采样而导致的不切实际评估。为了解决这些问题,我们提出了一种询问方法,该方法利用LLMS生成个性化查询,以从整个候选人池中检索相关项目,从而消除了候选人预选的需求。可以将此方法集成到基于ID的建议系统中,而无需进行其他培训,通过 ...
自然语言为程序机器人提供了强大的方式来执行时间任务。线性时间逻辑(LTL)为时间任务的形式描述提供了明确的语义。但是,现有方法无法准确,鲁棒地将英语句子转换为在看不见的环境中的等效LTL公式 ...
音频本质上是时间的,并且与视觉世界紧密同步,使其成为可控视频生成(例如,电影)的自然对齐和表现力的控制信号 ...
确保深度学习模型的鲁棒性需要全面和多样化的测试。现有的方法通常基于简单的数据增强技术或生成对抗网络,在产生现实和多样化的测试用例方面受到限制。为了解决这些局限性,我们提出了一个新的框架,用于测试视觉神经网络,该框架利用大型语言模型和控制条件的扩散模型生成合成的高保真测试案例 ...