与大脑有关的人工智能研究主题最近越来越受欢迎,尤其是由于多模式体系结构从计算机视觉到自然语言处理可以做什么。这项工作中我们的主要目标是探索来自非侵入性fMRI记录的口语文本中这些体系结构的可能性和局限性。与视觉和文本数据相反,fMRI数据是由于大脑扫描仪的种类而代表了一种复杂的方式,这意味着(i)记录的信号格式的多样性,(ii)原始信号的低分辨率和噪声,以及(iii)可以用作生成学习的基础模型的预 ...
场景合成的最新进展使独立的大满贯系统纯粹是基于优化的过度启示,并以渲染目标的可能性进行了优化。但是,跟踪性能仍然缺乏传统和端到端的大满贯系统。尚未达到稳健性,速度和准确性之间的最佳权衡,尤其是对于单眼视频 ...
大型视觉模型(VLMS)提供出色的性能,但需要大量的计算资源,从而将其部署在移动设备和边缘设备上。较小的VLM通常会镜像较大模型的设计选择,例如广泛的图像 Token 化,从而导致GPU存储器使用效率低下,并且在设备应用程序中的实用性有限。我们介绍了Smolvlm,这是一系列专门针对资源效率推理设计的紧凑多模型 ...
通过离线数据或自我监督目标学习改进的表示的技术在传统的加强学习(RL)中显示出令人印象深刻的结果。然而,目前尚不清楚改进的表示学习如何从人类反馈(RLHF)上受益于语言模型(LMS)。在这项工作中,我们在对比度中提出了培训奖励模型(RMS),$ \ textit {目标条件} $时尚,通过增加沿采样的首选轨迹的表示相似性,并沿随机采样的分配分配轨迹降低了相似性 ...
商业智能 (BI) 将现代组织内的大量数据转换为可操作的见解,以做出明智的决策。最近,基于大语言模型 (LLM) 的代理通过在基于自然语言 (NL) 查询的可执行环境中自动执行任务规划、推理和操作,简化了 BI 工作流程。然而,现有方法主要关注单个 BI 任务,例如 NL2SQL 和 NL2VIS ...
在过去的几十年里,推荐系统取得了显着的进步并得到了广泛的应用。然而,大多数传统的推荐方法都是针对特定任务的,因此缺乏有效的泛化能力。最近 ...
大型语言模型(LLM)的最新进步彻底改变了其处理单转任务的能力,但是现实世界中的应用程序需要复杂的多转交互作用。这项调查对评估和增强LLM中多转交互的最新进展进行了全面综述。从诸如数学和编码之类的不同领域的指导到角色扮演,医疗保健,教育甚至对抗性越狱环境中的复杂对话交战等各种领域的指导,我们会系统地研究维持上下文,相干性,公平性,公平性和响应性在长期对话中的挑战 ...
许多高影响力的机器学习任务涉及多维数据(例如,图像,体积医学扫描,多元时间序列) ...