随着人工智能(AI)技术的不断部署,人类与人工智能代理合作的潜力正在飞速增长。人类-人工智能团队是研究人类和人工智能代理协同工作时各个方面的重要范例。人机-人工智能团队研究的独特之处在于需要共同研究人类和人工智能体,需要从机器学习到人机交互、机器人、认知科学、神经科学、心理学、社会科学和复杂系统的多学科研究工作。然而,现有的人类-人工智能团队研究平台有限,通常支持过于简单的场景和单一任务,或者专门关注人类团队研究或多智能体人工智能算法。我们推出了 CREW,这是一个平台,可促进实时决策场景中的人类与人工智能团队研究,并参与多个科学学科的合作,特别强调人类的参与。它包括用于认知研究和人类人工智能协作的预构建任务,并且具有我们模块化设计的可扩展潜力。继传统的认知神经科学研究之后,CREW 还支持多模式人类生理信号记录以进行行为分析。此外,CREW 使用最先进的算法和精心调整的基线对实时人类引导的强化学习代理进行基准测试。借助 CREW,我们能够在一周内进行 50 项人体研究,以验证我们基准的有效性 ...
我们推出 TurboDiffusion,这是一种视频生成加速框架,可以将端到端扩散生成速度提高 100-200 倍,同时保持视频质量。 TurboDiffusion主要依靠几个组件来进行加速:(1)注意力加速:TurboDiffusion使用低位SageAttention和可训练的稀疏线性注意力(SLA)来加速注意力计算。 (2) 分级蒸馏:TurboDiffusion采用rCM进行高效的分级蒸馏。 (3) W8A8量化:TurboDiffusion将模型参数和激活量化到8位,以加速线性层并压缩模型。此外,TurboDiffusion 还结合了其他一些工程优化。我们在Wan2.2-I2V-14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P和Wan2.1-T2V-14B-480P模型上进行了实验。实验结果表明,即使在单个 RTX 5090 GPU 上,TurboDiffusion 也能实现 100-200 倍的视频生成加速,同时保持相当的视频质量。 GitHub 存储库包含模型检查点和易于使用的代码,可从此 https URL 获取 ...
准确计算车轴对于交通控制、收费和基础设施开发至关重要。我们提出了一种端到端、基于视频的计轴管道,解决了之前在密集环境中工作的局限性。我们的系统利用 YOLO-OBB 的组合来检测和分类车辆,并利用 YOLO 来检测轮胎。检测到的轮胎与其各自的母车智能关联,即使在复杂的情况下也能实现准确的车轴预测。然而,当涉及车辆较长且遮挡的场景时,检测存在一些挑战。我们通过提出一种新颖的 TRAX(轮胎和车轴跟踪)算法来成功跟踪帧之间与车轴相关的特征,从而减轻车辆遮挡和较长车辆的部分检测。我们的方法通过显着减少误报并提高长车辆计轴的准确性而脱颖而出,在现实世界的交通视频中表现出强大的鲁棒性。这项工作代表着向可扩展、人工智能驱动的计轴系统迈出了重要一步,为机器视觉取代传统路边基础设施铺平了道路 ...
准确的环境表征对于自动驾驶至关重要,为安全高效的导航奠定了基础。传统上,高清 (HD) 地图先验地向自治系统提供静态道路基础设施的表示。然而,由于现实世界不断变化,此类地图必须根据机载传感器数据在线构建。导航级标清 (SD) 地图已广泛使用,但其分辨率不足以直接部署。相反,它们可以用作粗略之前来指导在线地图构建过程。我们提出了 NavMapFusion,一种基于扩散的框架,可根据高保真传感器数据和低保真导航地图执行迭代去噪。本文力图回答:(1)粗糙的、可能过时的导航地图如何指导在线地图建设? (2)扩散模型对于地图融合有什么优势?我们证明基于扩散的地图构建为地图融合提供了强大的框架。我们的主要见解是,先前的地图和在线感知之间的差异自然对应于扩散过程中的噪音;一致的区域加强了地图构建,而过时的部分则被抑制。在 nuScenes 基准测试中,NavMapFusion 以来自 OpenStreetMap 数据的粗路线为条件,在 100 m 距离上实现了 21.4% 的相对改进,在更大的感知范围上实现了更强劲的改进,同时保持了实时能力。通过将低保真先验与高保真传感器数据融合,所提出的方法生成准确且最新的环境表示,指导实现更安全、更可靠的自动驾驶。该代码可在此 https URL 获取 ...
通过基于大语言模型 (LLM) 的智能体社会,在自动解决问题方面取得了显着的进展。现有的基于LLM的多智能体系统已经可以解决简单的对话任务。然而,更复杂的任务的解决方案由于逻辑不一致而变得复杂,这是由于天真的链接 LLM 引起的级联幻觉造成的。在这里,我们介绍 MetaGPT,这是一种创新的元编程框架,将高效的人类工作流程融入到基于 LLM 的多智能体协作中。 MetaGPT 将标准化操作程序 (SOP) 编码为提示序列,以实现更简化的工作流程,从而允许具有类人领域专业知识的代理验证中间结果并减少错误。 MetaGPT 利用装配线范例为不同的代理分配不同的角色,有效地将复杂的任务分解为涉及许多代理协同工作的子任务。在协作软件工程基准测试中,MetaGPT 生成的解决方案比以前基于聊天的多代理系统更加一致。我们的项目可以在这个 https URL 找到 ...
大规模推荐系统对于处理大量日常用户交互至关重要,需要对高基数和异构特征进行有效建模,以确保准确的预测。在之前的工作中,我们引入了分层顺序转换器(HSTU),这是一种基于注意力的架构,用于对高基数、非平稳流推荐数据进行建模,在生成推荐框架(GR)中提供良好的缩放法则。最近的研究和实验表明,关注较长的用户历史序列可以带来显着的指标改进。然而,缩放序列长度需要大量激活,因此需要并行解决方案来有效地分片激活内存。在基于 Transformer 的 LLM 中,上下文并行 (CP) 是一种常用的技术,它将计算沿序列长度维度分布在多个 GPU 上,从而有效减少注意力激活的内存使用量。相比之下,生产排名模型通常利用锯齿状输入张量来表示用户交互特征,从而引入了独特的 CP 实现挑战。在这项工作中,我们引入了上下文并行性和锯齿状张量支持 HSTU 注意力,建立了扩大序列维度的基础能力。我们的方法使支持的用户交互序列长度增加了 5.3 倍,同时与分布式数据并行 (DDP) 结合时实现了 1.55 倍的缩放因子 ...
跨域推荐(CDR)旨在通过跨域转移知识来缓解数据稀疏性。解开表示学习通过分离域内特征(域共享和域特定特征)来建模复杂的用户偏好,从而增强鲁棒性和可解释性。然而,采用生成模型或具有对比目标的 GNN 的基于解耦的 CDR 方法面临两个关键挑战:(i)预分离策略在提取协作信号之前解耦特征,破坏域内交互并引入噪声; (ii) 无监督的解缠目标缺乏明确的针对特定任务的指导,导致一致性有限和次优对齐。为了应对这些挑战,我们提出了 DGCDR,一种 GNN 增强的编码器-解码器框架。为了应对挑战 (i),DGCDR 首先应用 GNN 提取高阶协作信号,提供丰富的表示作为解开的坚实基础。然后,编码器动态地将特征分解为域共享和特定空间,在分离过程中保留协作信息。为了应对挑战(ii),解码器引入了基于锚的监督,利用分层特征关系来增强域内一致性和跨域对齐。对真实数据集的大量实验表明,DGCDR 实现了最先进的性能,关键指标的改进高达 11.59%。定性分析进一步验证了其卓越的解缠结质量和可转移性。我们的源代码和数据集可在 GitHub 上获取,以供进一步比较 ...
多机构系统(MAS)已成为精心策划大型语言模型(LLM)和专门解决复杂任务的专业工具的强大范式。但是,现有的MAS框架通常需要手动工作流程配置,并且缺乏对动态演化和性能优化的本地支持。此外,许多MAS优化算法未集成到统一框架中 ...
大规模推荐的核心问题之一是准确有效地检索最相关的候选者,最好是在亚线性时间内。以前的方法大多基于两步过程:首先学习内积模型,然后使用一些近似最近邻(ANN)搜索算法来查找最佳候选者。在本文中,我们提出了深度检索(DR),直接利用用户-项目交互数据(例如点击)学习可检索的结构,而无需求助于 ANN 算法中的欧几里得空间假设。 DR 的结构将所有候选项编码到离散的潜在空间中。候选者的这些潜在代码是模型参数,并与其他神经网络参数一起学习,以最大化相同的目标函数。通过学习模型,对结构进行波束搜索以检索用于重新排序的最佳候选者。根据经验,我们首先证明具有亚线性计算复杂性的 DR 可以在两个公共数据集上实现与暴力基线几乎相同的精度。此外,我们表明,在实时生产推荐系统中,部署的 DR 方法在参与度指标方面显着优于经过良好调整的 ANN 基线。据我们所知,DR 是首批成功部署在数亿个项目规模的工业推荐系统中的非 ANN 算法之一 ...
我们提出了一种级联缓冲 IoU (C-BIoU) 跟踪器来跟踪具有不规则运动和难以区分外观的多个对象。当外观特征不可靠并且几何特征被不规则运动混淆时,应用传统的多目标跟踪(MOT)方法可能会产生不令人满意的结果。为了解决这个问题,我们的C-BIoU跟踪器添加了缓冲区来扩展检测和跟踪的匹配空间,这从两个方面减轻了不规则运动的影响:一是直接匹配相邻帧中相同但不重叠的检测和跟踪,二是补偿匹配空间中的运动估计偏差。此外,为了降低匹配空间过度扩展的风险,采用级联匹配:首先使用小缓冲区匹配活动轨迹和检测,然后使用大缓冲区匹配未匹配的轨迹和检测。尽管很简单,我们的 C-BIoU 跟踪器却运行得非常好,并在专注于不规则运动和难以区分的外观的 MOT 数据集上取得了最先进的结果。此外,C-BIoU 跟踪器是我们在 CVPR'22 SoccerNet MOT 和 ECCV'22 MOTComplex DanceTrack 挑战中获得第二名解决方案的主要组件。最后,我们分析了 C-BIoU 跟踪器在消融研究中的局限性并讨论了其应用范围 ...