确保通用人工智能 (AGI) 可靠地避免有害行为是一项严峻的挑战,特别是对于具有高度自治性或安全关键领域的系统而言。尽管有各种安全保障建议和极端风险警告,但平衡人工智能安全和能力的综合指南仍然缺乏。在这篇立场文件中,我们提出 \textit{AI-\textbf{$45^{\circ}$} Law} 作为实现可信赖 AGI 的平衡路线图的指导原则,并介绍 \textit{可信赖 AGI 的因果阶梯 ...
在这项工作中,我们探讨了手机上流式和非流式模式下关键字识别 (KWS) 模型的延迟和准确性。神经网络模型从非流模式(模型接收整个输入序列,然后返回分类结果)到流模式(模型接收部分输入序列并增量分类)的转换可能需要手动模型重写。我们通过设计一个基于 Tensorflow/Keras 的库来解决这个问题,该库允许以最小的努力将非流模型自动转换为流模型 ...
在快速发展的自动驾驶领域,准确预测未来事件并评估其影响的能力对于安全性和效率至关重要,对决策过程有重要帮助。世界模型已经成为一种变革性方法,使自动驾驶系统能够合成和解释了大量传感器数据,从而预测未来潜在的场景并弥补信息差距。本文对自动驾驶世界模型的现状和未来进展进行了初步概述,深入其理论基础、实际应用以及旨在克服现有局限性的持续性研究工作... ...
预训练模型,然后在下游任务上对其进行微调,已经在 2D 图像和 NLP 领域取得了巨大的成功。然而,由于点云的无序和非均匀密度特性,探索点云的先验知识并预训练点云主干并不是一件容易的事。在本文中,我们提出了一种新颖的预训练方法,称为点云扩散预训练(PointDif) ...
主动对话是大语言模型(LLM)时代一个实用而又具有挑战性的对话问题,其中对话政策规划是提高LLM主动性的关键。大多数现有研究都可以使用各种提示方案来规划 LLM 的对话政策,或者通过口头人工智能反馈迭代增强处理给定案例的能力。然而,这些方法要么受到冻结的 LLM 的政策规划能力的限制,要么很难转移到新的案例中 ...
主动对话系统涉及广泛的现实世界对话应用,使对话代理能够引导对话方向实现预设目标或从系统侧实现某些目标的能力。它通过先进技术的支持,可以进展到需要战略和动机交互的更多复杂的任务。在本次调查中,我们全面概述了对话代理在不同类型对话中的主动性的突出问题和先进设计... ...
现有的视觉问答基准缺乏视觉基础和复杂性,特别是在评估空间推理技能方面。我们介绍了 FlowVQA,这是一种新颖的基准,旨在评估视觉问答多模态语言模型以流程图作为视觉上下文进行推理的能力。 FlowVQA 包含来自三个不同内容源的 2,272 个精心生成且经过人工验证的流程图图像,以及 22,413 个不同的问答对,以测试一系列推理任务,包括信息本地化、决策制定和逻辑进展 ...
我们推出 VLMEvalKit:一个用于评估基于 PyTorch 的大型多模态模型的开源工具包。该工具包旨在为研究人员和开发人员提供一个用户友好且全面的框架,以评估现有的多模态模型并发布可重复的评估结果。在 VLMEvalKit 中,我们实现了 70 多个不同的大型多模态模型,包括专有 API 和开源模型,以及 20 多个不同的多模态基准 ...