人类只需几次尝试和错误就可以有效地从视频中提取知识并学习技能。然而,由于视觉输入的复杂性、动作或奖励信号的缺乏以及交互步骤的限制,为自主代理复制这种学习过程提出了巨大的挑战。在本文中,我们提出了一种新颖的、无监督的、样本高效的框架来实现视频模仿学习(ILV),称为通过潜在表示从视频中克隆行为(BCV-LR)。 BCV-LR 通过自监督任务从高维视频输入中提取与动作相关的潜在特征,然后利用基于动态的无监督目标来预测连续帧之间的潜在动作。预先训练的潜在动作经过微调并有效地与在线真实动作空间(具有收集的交互)对齐,以进行策略行为克隆。克隆的策略反过来又丰富了代理体验,以进一步微调潜在动作,从而实现高样本效率的迭代策略改进。我们对一系列具有挑战性的视觉任务进行了广泛的实验,包括离散控制和连续控制。 BCV-LR 只需几次交互即可实现有效(甚至在某些任务上达到专家水平)的策略性能,在 24/28 任务的样本效率方面超越了最先进的 ILV 基线和强化学习方法(提供环境奖励)。据我们所知,这项工作首次证明视频可以支持极其高效的样本视觉策略学习,而不需要任何其他专家的监督 ...
虽然多模态大型语言模型(MLLM)在高级感知和推理方面表现出令人印象深刻的能力,但它们在野外的稳健性仍然有限,通常无法完成人类直观且轻松的任务。我们研究了这样一个假设:这些缺陷源于缺乏核心知识——人类从幼儿期起就与生俱来的基本认知能力。为了探索 MLLM 中的核心知识表示,我们引入了 CoreCognition,这是一个大规模基准,包含基于发展认知科学的 12 个核心知识概念。我们使用 11 种不同的提示评估了 230 个模型,总共获得了 2,530 个数据点进行分析。我们的实验揭示了四个关键发现,共同证明了 MLLM 的核心知识缺陷:它们始终表现不佳,并且相对于高级能力而言,低级能力的可扩展性降低,甚至不存在。最后,我们提出了概念黑客(Concept Hacking),这是一种新颖的受控评估方法,揭示了 MLLM 无法实现真正的核心知识理解,而是在扩展时依赖于捷径学习 ...
动态治疗方案 (DTR) 提供了一个原则框架,用于优化决策必须随时间适应个人轨迹(例如医疗保健、教育和数字干预)的领域中的顺序决策。然而,现有的统计方法往往依赖于强正性假设,在部分数据覆盖下缺乏鲁棒性,而离线强化学习方法通常关注平均训练性能,缺乏统计保证,需要解决复杂的优化问题。为了应对这些挑战,我们提出了 POLAR,一种用于离线 DTR 优化的新型基于悲观模型的策略学习算法。 POLAR 根据离线数据估计转变动态,并量化每个历史-行动对的不确定性。然后将悲观惩罚纳入奖励函数中,以阻止具有高度不确定性的行为。与许多关注平均训练性能的现有方法不同,POLAR 直接针对最终学习策略的次优性并提供理论保证,而不依赖于计算密集型极小极大或约束优化程序。据我们所知,POLAR 是第一个基于模型的 DTR 方法,可提供统计和计算保证,包括政策次优性的有限样本界限。合成数据和 MIMIC-III 数据集的实证结果表明,POLAR 的性能优于最先进的方法,并产生近乎最佳的历史感知治疗策略 ...
深度研究系统广泛用于多步骤网络研究、分析和跨源综合,但对其评估仍然具有挑战性。现有的基准通常需要注释密集型任务构建,依赖于静态评估维度,或者在引用缺失时无法可靠地验证事实。为了弥补这些差距,我们引入了 DeepResearchEval,这是一个用于深度研究任务构建和代理评估的自动化框架。对于任务构建,我们提出了一个角色驱动的管道,生成基于不同用户配置文件的现实、复杂的研究任务,应用两阶段过滤器任务资格和搜索必要性来仅保留需要多源证据集成和外部检索的任务。对于评估,我们提出了一个包含两个组件的代理管道:一个自适应逐点质量评估,根据每个生成的任务动态导出特定于任务的评估维度、标准和权重;以及一个主动事实检查,即使在引用缺失的情况下,也可以通过网络搜索自动提取和验证报告陈述 ...
扩散 Transformer 在生成高质量图像方面表现出了强大的能力。然而,随着模型大小的增加,不断增长的内存占用和推理延迟给实际部署带来了重大挑战。最近对大型语言模型 (LLM) 的研究表明,基于旋转的技术可以平滑离群值并实现 4 位量化,但这些方法通常会产生大量开销,并且难以应对扩散变换器中的行向离群值。为了应对这些挑战,我们提出了 ConvRot,这是一种基于分组旋转的量化方法,利用常规 Hadamard 变换 (RHT) 来抑制行方向和列方向的异常值,同时将复杂性从二次降低到线性。在此基础上,我们设计了 ConvLinear4bit,这是一个即插即用的模块,集成了旋转、量化、GEMM 和反量化,无需重新训练即可实现 W4A4 推理并保持视觉质量。 FLUX.1-dev 上的实验表明,在保持图像保真度的同时,速度提高了 2.26$\times$,内存减少了 4.05$\times$。据我们所知,这是基于旋转的量化在扩散 Transformer 中用于即插即用 W4A4 推理的首次应用 ...
仅使用少量带注释的示例来构建可以快速适应新任务的模型对于多模态机器学习研究来说是一个公开的挑战。我们介绍 Flamingo,它是具有此功能的视觉语言模型 (VLM) 系列。我们提出了关键的架构创新:(i)桥接强大的预训练纯视觉和纯语言模型,(ii)处理任意交错的视觉和文本数据序列,以及(iii)无缝摄取图像或视频作为输入。由于其灵活性,Flamingo 模型可以在包含任意交错的文本和图像的大规模多模态网络语料库上进行训练,这是赋予它们上下文中的小样本学习能力的关键。我们对我们的模型进行了彻底的评估,探索和测量它们快速适应各种图像和视频任务的能力。其中包括开放式任务,例如视觉问答,其中模型会被提示必须回答的问题;字幕任务,评估描述场景或事件的能力;以及封闭式任务,例如多项选择视觉问答。对于此范围内任何位置的任务,单个 Flamingo 模型可以通过几次学习达到新的最先进水平,只需用特定于任务的示例提示模型即可。在众多基准测试中,Flamingo 的性能优于根据数千倍的特定任务数据进行微调的模型 ...
十多年来,断言一直是硬件设计基于仿真和形式验证的事实上的抵押品。硬件验证的质量,即极端情况设计错误的检测和诊断,很大程度上取决于断言的质量。已有大量研究利用数据驱动的统计分析和静态分析的结合,从硬件设计源代码和设计执行跟踪数据生成高质量的断言。尽管做出了如此一致的努力,所有先前的研究都难以扩展到工业规模的大型设计,生成了太多低质量的断言,通常无法捕获微妙且重要的设计功能,并且没有对生成的断言产生任何易于理解的解释,以了解断言对不同下游验证任务的适用性。最近,随着大语言模型 (LLM) 的出现,人们广泛致力于利用即时工程来生成断言。然而,很少有人努力定量地确定各种 LLM 对于断言生成的有效性和适用性。在本文中,我们提出了 AssertionBench,这是一种定量评估 LLM 断言生成有效性的新颖基准。 AssertioBench 包含来自 OpenCores 的 100 个精心策划的 Verilog 硬件设计,以及由 GoldMine 和 HARM 生成的每个设计的经过正式验证的断言。 We use AssertionBench to compare state-of-the-art LLMs to assess their effectiveness in inferring functionally correct assertions for hardware designs.我们的实验展示了 LLM 之间的相对表现、使用更多上下文样本来生成更高比例的功能正确断言的好处,以及基于 LLM 的断言生成器的巨大改进空间 ...
最近的基准测试探讨了大型语言模型 (LLM) 中的事实一致性和修辞稳健性。然而,关于事实真实陈述的定向框架如何影响模型一致性(LLM 用户的常见情况)方面存在知识差距。 AssertBench 通过从事实验证数据集 FEVEROUS 中采样有证据支持的事实来解决这个问题。对于每个(有证据支持的)事实,我们构建两个框架提示:一个是用户声称该陈述实际上是正确的,另一个是用户声称该陈述不正确。然后我们记录模型的一致性和推理。期望的结果是模型主张自己,在两个框架中保持一致的真实评估,而不是改变其评估以与用户一致。 AssertBench 根据模型在中立呈现时对相同主张的准确性对结果进行分层,将框架引起的变异性与模型的基础事实知识隔离开来。在此过程中,该基准旨在衡量 LLM 在面对有关同一事实的相互矛盾的用户断言时“坚持己见”的能力。完整的源代码可在此 https URL 中获取 ...
大型语言模型在各种语言任务中取得了重大进展,但它们仍然在复杂的数学方面遇到困难。在本文中,我们提出了 ToRA 一系列工具集成推理代理,旨在通过将自然语言推理与外部工具(例如计算库和符号求解器)的利用无缝集成来解决具有挑战性的数学问题,从而融合语言的分析能力和工具的计算效率。为了训练 ToRA,我们在数学数据集上策划交互式工具使用轨迹,对注释应用模仿学习,并提出输出空间整形以进一步细化模型的推理行为。因此,ToRA 模型在所有规模的 10 个数学推理数据集上显着优于开源模型,平均绝对改进为 13%-19%。值得注意的是,ToRA-7B 在竞赛级数据集 MATH 上达到了 44.6%,绝对超过最佳开源模型 WizardMath-70B 22%。 ToRA-Code-34B也是第一个在MATH上准确率超过50%的开源模型,显着优于GPT-4的CoT结果,与GPT-4解决程序问题具有竞争力。此外,我们对数学推理工具交互的好处和剩余挑战进行了全面分析,为未来的研究提供了宝贵的见解 ...
令人惊讶的是,大型语言模型 (LLM) 以及不断增长的基于提示的启发式方法现在提供了强大的现成方法,为无数经典的 NLP 问题提供了少量解决方案。然而,尽管早期结果很有希望,但这些基于 LLM 的小样本方法仍远未达到命名实体识别 (NER) 的最先进水平,其中流行的方法包括通过端到端结构理解和对标准标记语料库的微调来学习表示。在本文中,我们介绍了 PromptNER,这是一种用于少样本和跨域 NER 的最先进的新算法。为了适应任何新的 NER 任务,PromptNER 除了标准的少数样本示例之外还需要一组实体定义。给定一个句子,PromptNER 会提示 LLM 生成潜在实体的列表以及相应的解释,证明它们与所提供的实体类型定义的兼容性。值得注意的是,PromptNER 在少样本 NER 上实现了最先进的性能,在 ConLL 数据集上实现了 4%(绝对)的 F1 分数提升,在 GENIA 数据集上实现了 9%(绝对)提升,在 FewNERD 数据集上实现了 4%(绝对)提升。 PromptNER 还推动了跨域 NER 的最新技术发展,超越了之前的方法(包括不限于少样本设置的方法),在 3/5 CrossNER 目标域上创下了新的记录,尽管使用的可用数据不到 2%,但平均 F1 增益为 3% ...