最近的研究表明,使用增强学习(RL)在建立推理模型中的功效,这些模型在产生最终答案之前阐明思想链。然而,尽管持续的进步旨在促进视力语言任务推理,但现有的开源视觉推理模型通常会用纯自然语言生成推理内容,而缺乏明确的视觉信息集成。这限制了他们产生清晰铰接和视觉扎根的推理链的能力 ...
在各种情况下,基于骨架的动作识别基于关节的坐标及其在骨架数据中的连通性对人类行为进行了分类。尽管已经提出了用于图形表示的骨骼数据的图形卷积网络(GCN),但它们受到关节连通性约束的受体有限。为了解决这一限制,最近的进步引入了基于 Transformer 的方法 ...
顺序推荐是推荐系统领域的关键领域,旨在基于具有不规则间隔的历史互动序列对用户兴趣进行建模。尽管以前基于神经网络的复发和基于注意力的方法取得了显着结果,但由于离散特征,它们在捕获系统连续性方面存在局限性。在连续时间建模的背景下,状态空间模型(SSM)提供了潜在的解决方案,因为它可以有效地捕获用户兴趣的动态演变 ...
最近,研究人员在各种下游NLP任务中的角色广泛研究了大型语言模型(LLM)。作为NLP字段中的一项基本任务,中国语法误差校正(CGEC)旨在纠正输入句子中的所有潜在语法错误。先前的研究表明,由于其具有挑战性的任务重点,LLMS作为CGEC上的校正器的表现仍然不令人满意 ...
大型语言模型在各种任务中表现出了出色的表现,表现出迅速获得新技能的能力,例如通过文化学习(ICL)以最少的演示示例。在这项工作中,我们提出了一个综合框架,用于在大型多模型模型的背景下研究多模式ICL(M-ICL)。我们认为最好的开源多模型(e ...
在许多现实世界中,例如电力消耗计划和销售预测,时间序列预测(TSF)从根本上是必需的。在电子商务中,准确的时间序列销售预测(TSSF)可以显着提高经济利益。电子商务中的TSSF旨在预测数百万产品的未来销售 ...
语音助手(例如Siri和Google Assistant)通常会单独建模音频和文本,从而导致语音信息丢失和增加的复杂性。最近通过端到端的语音模型(LLM)(SFT)培训的端到端语音大语言模型(LLM)的最新努力导致模型``忘记了''''来自文本LLMS的功能。我们的工作提出了一种替代性范围,用于培训语音LLM的替代性范围,而无需在未经教学的情况下进行授课,该范围是使用Text-honly llm ...
分布(OOD)检测对于现实世界中机器学习系统的可靠和安全部署至关重要。在过去的几年中,取得了巨大进展。本文介绍了对OOD检测的最新进展的首次回顾,并特别关注自然语言处理方法 ...