评估大型语言模型 (LLM) 在执行不同任务时的有效性对于了解其优缺点至关重要。本文提出了分层提示分类法(HPT),它基于人类认知原理,旨在通过检查各种任务的认知需求来评估 LLM 。 HPT 利用分层提示框架 (HPF),该框架根据 LLM 与人类心理能力的认知要求,按分层顺序构建了五种独特的提示策略。它使用层次提示指数 (HPI) 评估任务的复杂性,该指数展示了 LLM 跨不同数据集的认知能力,并深入了解数据集对不同 LLM 的认知需求。这种方法可以对 LLM 解决问题的能力和数据集的复杂性进行全面评估,为任务复杂性提供标准化指标。对多个数据集和 LLM 的大量实验表明,与基线性能相比,HPF 将 LLM 性能提高了 2% 至 63%,其中 GSM8k 是推理和编码任务中认知最复杂的任务,平均 HPI 为 3.20,证实了 HPT 的有效性。为了支持该领域的未来研究和可重复性,此处提供了 HPT 和 HPF 的实现 ...
在本文中,我们提出了一种轻量级检测 Transformer LW-DETR,它在实时目标检测方面优于 YOLO。该架构是 ViT 编码器、投影仪和浅层 DETR 解码器的简单堆栈。我们的方法利用了最新的先进技术,例如训练有效的技术,例如改进的损失和预训练,以及用于降低 ViT 编码器复杂性的交错窗口和全局注意力。我们通过聚合多级特征图以及ViT编码器中的中间和最终特征图来改进ViT编码器,形成更丰富的特征图,并引入窗口主特征图组织以提高交错注意力计算的效率。实验结果表明,所提出的方法在 COCO 和其他基准数据集上优于现有的实时检测器(例如 YOLO 及其变体)。代码和模型可在(此 https URL)获取 ...
历史上,图像分割模型的性能受到收集大规模注释数据的高成本的限制。该段的任何模型(SAM)通过敏捷的,语义 - 敏捷的,分割范式来减轻此原始问题,但仍然需要手动视觉范围或复杂的域依赖性及时生成规则来处理新图像。为了减轻这一新负担,我们的工作只需提供一小部分参考图像,就会调查对象细分的任务 ...
在大数据预训练的驱动下,Segment Anything Model (SAM) 已被证明是一个强大且快速的框架,彻底改变了分割模型。尽管具有普遍性,但在没有人工提示的情况下针对特定视觉概念定制 SAM 的探索仍在进行中,例如,在不同的图像中自动分割您的宠物狗。在本文中,我们提出了一种无需培训的 SAM 个性化方法,称为 PerSAM。仅给定带有参考掩模的单个图像,PerSAM 首先通过位置先验来定位目标概念,并通过三种技术将其分割到其他图像或视频中:目标引导注意力、目标语义提示和级联后细化。通过这种方式,我们无需任何培训即可有效地使 SAM 适合私人使用。为了进一步减轻掩模模糊性,我们提出了一种高效的一次性微调变体 PerSAM-F。冻结整个 SAM,我们为多尺度掩模引入两个可学习的权重,在 10 秒内仅训练 2 个参数以提高性能。为了证明我们的功效,我们构建了一个新的分割数据集 PerSeg,用于个性化评估,并以具有竞争力的性能测试我们的视频对象分割方法。此外,我们的方法还可以增强 DreamBooth 以个性化文本到图像生成的稳定扩散,从而丢弃背景干扰以实现更好的目标外观学习。代码在此 https URL 发布 ...
预计第六代及以后的交流系统的出现将通过引入无与伦比的智能,效率和连通性从根本上改变数字体验。一项有希望实现这种革命性愿景的有前途的技术是无线大型AI模型(WLAM),其特征在于其在数据处理,推理和决策方面的出色功能。鉴于这些非凡的能力,本文对WLAM进行了全面的调查,阐明了其基本原则,各种应用,关键挑战和未来的研究机会 ...
少样本学习(FSL)旨在仅从少数标记的支持样本中识别新概念。最近的研究通过合并额外的语义信息或设计复杂的语义融合模块来增强支持功能。然而,由于缺乏实际情况的基础,它们仍然遭受与视觉证据相矛盾的幻觉语义的困扰,导致嘈杂的指导和昂贵的纠正。为了解决这些问题,我们提出了一种新颖的框架,将视觉和文本与 LLM 进行少样本学习 (VT-FSL) 结合起来,该框架以大语言模型 (LLM) 和支持图像为条件构建精确的跨模式提示,并通过几何感知对齐将它们无缝集成。它主要由跨模态迭代提示(CIP)和跨模态几何对齐(CGA)组成。具体来说,CIP 在类名称和支持图像上设置 LLM,以在单个结构化推理过程中迭代生成精确的类描述。这些描述不仅丰富了对新类别的语义理解,而且还能够实现语义一致图像的零样本合成。描述和合成图像分别充当补充的文本和视觉提示,提供高级类语义和低级类内多样性,以补偿有限的支持数据。此外,CGA 通过最小化它们跨越的 3 维平行四面体的核化体积来联合对齐融合的文本、支持和合成视觉表示。它捕获所有表示之间的全局和非线性关系,从而实现结构化和一致的多模态集成。所提出的 VT-FSL 方法在十个不同的基准上建立了新的最先进的性能,包括标准、跨域和细粒度的少样本学习场景。代码可从此 https URL 获取 ...
人体运动建模对于许多现代图形应用程序非常重要,这通常需要专业技能。为了消除外行人的技能障碍,最近的动作生成方法可以直接生成以自然语言为条件的人类动作。然而,利用各种文本输入实现多样化和细粒度的运动生成仍然具有挑战性。为了解决这个问题,我们提出了 MotionDiffuse,这是第一个基于扩散模型的文本驱动运动生成框架,它展示了现有方法的几个所需属性。 1)概率映射。 MotionDiffuse 不是确定性的语言运动映射,而是通过一系列注入变化的去噪步骤生成运动。 2)现实综合。 MotionDiffuse 擅长对复杂的数据分布进行建模并生成生动的运动序列。 3)多级操纵。 MotionDiffuse 响应身体部位的细粒度指令,以及随时间变化的文本提示的任意长度的运动合成。我们的实验表明,MotionDiffuse 在文本驱动的运动生成和动作条件运动生成方面具有令人信服的优势,优于现有的 SoTA 方法。定性分析进一步证明了 MotionDiffuse 对综合运动生成的可控性。主页:这个 https URL ...
行为克隆(BC)的最新进展已经实现了令人印象深刻的视觉运动控制策略。然而,这些方法受到人类演示质量、数据收集所需的手动工作以及离线数据收益递减的限制。相比之下,强化学习(RL)通过与环境的自主交互来训练智能体,并在各个领域取得了显着的成功。尽管如此,由于样本效率低下、安全问题以及从长期任务的稀疏奖励中学习的困难,特别是对于高自由度(DoF)系统,直接在现实世界的机器人上训练强化学习策略仍然具有挑战性。我们提出了一个方法,通过残差学习框架结合了 BC 和 RL 的优点。我们的方法利用 BC 策略作为黑盒基础,并通过样本高效的离策略 RL 学习轻量级的每步残差校正。我们证明了我们的方法只需要稀疏的二元奖励信号,并且可以有效地改进模拟和现实世界中高自由度(DoF)系统的操纵策略。特别是,据我们所知,我们首次在具有灵巧双手的人形机器人上成功进行了现实世界的强化学习训练。我们的结果展示了在各种基于视觉的任务中最先进的性能,为在现实世界中部署 RL 指明了一条实用途径 ...
信息在神经网络中传播的方式非常重要。在本文中,我们提出了路径聚合网络(PANet),旨在促进基于提案的实例分割框架中的信息流。具体来说,我们通过自下而上的路径增强,在较低层中使用准确的定位信号来增强整个特征层次,从而缩短了较低层和最顶层特征之间的信息路径。我们提出了自适应特征池,它将特征网格和所有特征级别链接起来,使每个特征级别中的有用信息直接传播到以下提议子网络。创建一个互补分支,捕获每个提案的不同视图,以进一步改进掩模预测。这些改进实施起来很简单,但会产生微妙的额外计算开销。我们的 PANet 在 COCO 2017 挑战实例分割任务中获得第一名,在对象检测任务中获得第二名,无需进行大批量训练。它在 MVD 和 Cityscapes 方面也是最先进的。代码可在此 https URL 获取 ...
我们的研究通过利用大型语言模型(LLM)的力量发现了新的启发式方法,为调度和组合优化文献做出了贡献。我们重点关注单机总延迟 (SMTT) 问题,该问题旨在通过在给定处理时间和到期日期的情况下,在单个处理器上对 n 个作业进行排序而不抢占来最小化总延迟。受众所周知的最早到期日 (EDD) 和修改到期日 (MDD) 规则的启发,我们开发并基准化了 LLM 发现的两种新颖的启发式方法,即 EDD Challenger (EDDC) 和 MDD Challenger (MDDC)。与之前采用更简单的基于规则的启发式方法的研究相比,我们使用严格的标准评估我们的 LLM 发现的算法,包括从 SMTT 的混合整数规划 (MIP) 公式得出的最优性差距和求解时间。我们将它们的性能与各种作业规模(20、100、200 和 500 个作业)的最先进的启发式方法和精确方法进行比较。对于超过 100 个作业的实例,MIP 和动态规划等精确方法在计算上变得很困难。 EDDC 改进了经典的 EDD 规则和文献中另一种广泛使用的算法,最多可处理 500 个作业。 MDDC 始终优于传统启发式方法,并且在精确方法方面保持竞争力,特别是在更大、更复杂的实例上。这项研究表明,即使在有效配置的资源有限的情况下,人类与 LLM 的协作也可以为 NP 困难约束组合优化产生可扩展的、高性能的启发式方法 ...