近年来,随着深度学习的持续发展和大规模人类运动数据集的出现,人类运动预测技术在人类计算机的互动,自主驾驶,运动分析和人事跟踪等各个领域都逐渐变得突出。本文介绍了该领域中的常见模型体系结构,以及它们各自的优势和缺点。它还系统地总结了最近的研究创新,重点是对这些领域相关论文的深入讨论,从而强调了对该领域发展的前瞻性见解 ...
我们提出了一项混合方法研究,以探讨大型语言模型(LLMS)如何帮助用户对知识图(KGS)进行视觉探索和分析。我们调查并采访了来自行业,政府实验室和学术界的20位专业人员,他们定期与KGS和LLMS合作,无论是合作还是并发。我们的研究结果表明,参与者绝大多数希望通过LLM通过共同查询构建从KG中促进数据检索,以通过多转交谈来识别KG中有趣的关系,并从KG中创建按需可视化,从而增强其对LLM的信任输出 ...
多模式大语言模型(MLLM)的兴起已成为人工智能领域的变革力量,使机器能够处理和生成跨多种模式(例如文本,图像,音频和视频)的内容。这些模型代表了对传统单峰系统的重大进步,从自主诊断到医学诊断的各种应用程序开放了新的边界。通过整合多种模式,MLLM对信息有了更全面的了解,密切模仿了人类的看法 ...
新型药物目标(DT)相互作用的鉴定是药物发现过程的重要组成部分。已提出预测DT相互作用的大多数计算方法都集中在二进制分类上,该分类是确定DT对是否相互作用的目标。但是,蛋白质 - 配体相互作用假设结合强度值的连续性也称为结合亲和力,并且预测该值仍然是一个挑战 ...
仅使用图形卷积网络(GCN)在骨骼序列之间提取多尺度上下文信息和高阶相关性是不足以进行有效的动作分类。 HyperGraph卷积解决了上述问题,但无法利用长期依赖性。事实证明, Transformer 可以有效地捕获这些依赖性并使复杂的上下文特征可访问 ...
整合可见的红外光谱线索的跨模式图像可以提供更丰富的互补信息以进行对象检测。尽管如此,在恶劣天气条件下,现有的可见红外物体检测方法严重降解。这种故障源于可见图像对环境扰动的明显敏感性,例如雨,阴霾和雪,这些降雨,雾霾和雪经常在检测中引起虚假负面和假阳性 ...
我们提出了一种自然图像和视频中零拍,文本驱动外观操纵的方法。给定输入图像或视频和目标文本提示,我们的目标是编辑现有对象的外观(例如, ...
在复杂的开放世界环境中实现类似人类的驾驶行为是自主驾驶的关键挑战。由于适应能力有限和学习复杂的多模式行为,人们对人类计划中通常表现出的复杂多模式行为,而不是提及他们对他们对他们的强烈依赖,因此基于现代学习的计划方法(例如模仿学习方法)通常努力平衡竞争目标和缺乏安全保证带有预定义规则的后备策略。我们为闭环计划提出了一个新型的基于 Transformer 的扩散计划者,该计划可以有效地对多模式驾驶行为 ...