语言模型 (LM) 理解自然语言的能力使其成为将人类指令解析为自主机器人任务计划的强大工具。与依赖特定领域知识和手工规则的传统规划方法不同,语言模型从不同的数据中进行概括,并以最小的调整适应各种任务,充当压缩的知识库。然而,标准形式的语言模型面临着长期任务的挑战,特别是在部分可观察的多智能体环境中 ...
视觉以其在操纵中的使用而闻名,尤其是使用视觉致威火。为了使其强大,需要多个摄像机来扩展视野。这在计算上具有挑战性 ...
多模式大型语言模型(MLLM)通过将视觉输入作为额外的 Token (LLMS)作为上下文来启用开放世界的视觉理解。但是,当视觉输入从单个图像变为长视频时,上述范式遇到困难,因为大量视频 Token 大大超过了MLLM的最大容量。因此,现有的基于视频的MLLM大多是在从输入数据中抽样一小部分 Token 时确定的,这可能会导致关键信息丢失并因此产生错误的答案 ...
结构表示对于重建和生成具有部分语义的可编辑的3D形状至关重要。最近的3D形状生成作品采用复杂的网络和结构定义,这些定义依赖于层次结构注释,并更少关注零件内部的细节。在本文中,我们提出了使用可区分的模板和相应的固定长度参数参数对同一类别中共享结构进行参数的方法 ...
Click-through rate (CTR) estimation is a fundamental task in personalized advertising and recommender systems and it's important for ranking models to effectively capture complex high-order this http ...
特征融合(来自不同层或分支的特征的组合)是现代网络体系结构的无所不在的一部分。它通常是通过简单操作(例如求和或串联)实现的,但这可能不是最佳选择。在这项工作中,我们提出了一个统一和一般的方案,即注意特征融合,该方案适用于大多数常见的情况,包括由短和长跳连接以及在开始层内引起的特征融合 ...
长期以来,实现与各种物体互动的人类互动的现实模拟一直是一个基本目标。由于复杂的人类对象耦合,对象几何形状的可变性以及运动捕获数据中的伪像,因此将基于物理的运动模仿扩展到复杂的人类对象相互作用(HOI)是具有挑战性的,例如不准确的接触和有限的手部细节。我们介绍了Intermimic,该框架使单个策略能够从不完美的MOCAP数据中鲁棒性地学习,涵盖了与动态和多样化对象的多元化相互作用 ...
大型语言模型 (LLM) 在各个领域都具有变革潜力,包括推荐系统 (RS)。有一些研究专注于通过 LLM 增强RS的能力。然而,之前的努力主要集中在LLM作为RS,这可能面临LLM不容忍推理成本的挑战 ...