机器人操纵系统在不同的动态环境中运行,必须具有三个关键能力:多任务相互作用,对看不见的场景的概括和空间记忆。尽管在机器人操作中已经取得了重大进展,但现有方法通常在复杂的环境变化和解决内存依赖性任务的概括方面通常缺乏。为了弥合这一差距,我们介绍了SAM2ACT,这是一种基于多视图的机器人 Transformer 策略,利用大型基础模型的视觉表示来利用多分辨率提升 ...
现在,多头自我引入(MSA)对于计算机视觉的成功是无可争议的。但是,对于MSA的工作方式知之甚少。我们提出了基本的解释,以帮助更好地理解MSA的性质 ...
城市研究涉及需要了解多模式数据的各种场景和任务。当前的方法通常集中在特定的数据类型上,并且缺乏城市领域的统一框架来全面处理它们。多模式大语言模型(MLLM)的最新成功为克服这一限制提供了一个有希望的机会 ...
开源生态系统(例如PYPI)中的恶意软件包构成了增长的安全风险。与传统的漏洞不同,这些软件包是故意旨在欺骗用户的,由于不断发展的攻击方法和缺乏结构化数据集而引起的检测具有挑战性。在这项工作中,我们从经验上评估了大语言模型(LLMS),检索演示生成(RAG)的有效性,以及用于检测恶意源代码的少量学习 ...
多模式检索提取的问题回答(MRAQA)集成了文本和图像,在信息检索(IR)和自然语言处理(NLP)上引起了极大的关注。传统排名方法依赖于基于编码器的小型语言模型,这些模型与基于现代解码器的大型语言模型(LLM)不兼容,这些模型(LLMS)已提出了各种NLP任务。为了弥合这一差距,我们提出了RAMQA,这是一个将学习到级别方法与生成置换增强的排名技术相结合的统一框架 ...
大型多模式模型(LMMS)在各个领域中都有实质性的希望,从日常任务的个人帮助到医学诊断等复杂应用程序。但是,它们的功能在视频游戏领域存在局限性,例如在场景理解,幻觉和对视频游戏内容的描述不准确的情况下,尤其是在开源模型中。本文介绍了基于兔子的Llava风格的模型VisiogameBunny的开发,该模型是针对理解视频游戏中图像的专门量身定制的 ...
以任务为导向的对话(TOD)系统正在经历由大语言模型(LLM)驱动的革命,但是这些系统的评估方法仍然不足以使其不断增长。尽管传统的自动指标有效地评估了早期的模块化系统,但它们仅关注对话级别,无法检测到在用户代理交互过程中可能出现的关键中间错误。在本文中,我们介绍了TD-Eval(转向和对话级别的评估),这是一个两步评估框架,通过整体对话级别的比较统一了细粒度的转向级分析 ...
推荐系统(RS)是一个重要的在线应用程序,每天都会影响数十亿个用户。主流RS排名框架由两个部分组成:多任务学习模型(MTL),该模型可预测各种用户反馈,即 ...