注释定性的大规模面部表达数据集非常困难,这是由于面部表情模棱两可,低质量的面部图像和注释者的主观性所引起的不确定性。这些不确定性导致了深度学习时代大规模面部表达识别(FER)的关键挑战。为了解决这个问题,本文提出了一个简单而有效的自我固化网络(SCN),该网络(SCN)有效地抑制了不确定性,并防止深层网络无法拟合过度不确定的面部图像 ...
llm(llm)进行推荐,将推荐任务转换为自然语言任务。它支持生成式推荐,直接生成要推荐的项目,而不是像传统推荐模型那样计算每个候选项目的排名分数,从而简化了从多级过滤到单级过滤的推荐流程。为了避免在决定推荐哪些项目时生成过长的文本和幻觉推荐 ...
我们旨在开发一个检索型的一代(RAG)框架,该框架回答了以混合方式(例如,图表,表格)和各种格式(e ...
大型现实世界的机器人数据集具有训练通用机器人模型的巨大潜力,但是扩展现实世界数据收集是耗时且资源密集的。仿真在补充大规模数据方面具有巨大的潜力,尤其是在生成AI和自动化数据生成工具方面的最新进展,这些工具能够促进机器人行为数据集的可扩展创建。但是,仅在模拟中培训一项政策并将其转移到现实世界中通常需要大量的人类努力来弥合现实差距 ...
检索阶段是推荐系统的重要组成部分,要求模型有效且高效。最近,生成检索已成为文档检索的新兴范式,并表现出显着的性能。这些方法具有端到端可微分等优点,表明它们在推荐中的可行性... ...
大型语言模型(LLM)的最新进展正在促进它们集成到与推理相关的几个领域,包括自动化计划(AP)。但是,它们与层次规划(HP)的整合是利用层次知识来提高计划绩效的AP子场,但仍未得到探索。在这项初步工作中,我们提出了一个路线图,以解决这一差距和利用LLMS对HP的潜力 ...
作为人工智能领域的长期愿景,体现智能的核心目标是提高智能体与环境的感知、理解和交互能力。视觉语言导航(VLN)作为实现具身智能的关键研究路径,重点探索智能体如何利用自然语言与人类有效沟通,接收和理解指令,并最终依靠视觉信息实现精确导航。 VLN 集成了人工智能、自然语言处理、计算机视觉和机器人技术 ...
了解道路拓扑对于自动驾驶至关重要。本文介绍了topobda(拓扑拓扑,并引起了可变形的注意),这是一种新颖的方法,通过利用bezier可变形的注意来增强道路拓扑的理解(BDA)。 BDA利用Bezier控制点来驱动可变形的注意机制,从而显着改善了伸长和薄的多线结构(例如车道中心线)的检测和表示 ...