计算机视觉和机器学习技术的进步导致 RGB 相机、LiDAR 和雷达的 2D 和 3D 人体姿势估计取得了重大发展。然而,根据图像进行人体姿态估计会受到遮挡和光照的不利影响,这在许多感兴趣的场景中都很常见。另一方面,雷达和激光雷达技术需要昂贵且耗电的专用硬件。此外,将这些传感器放置在非公共区域会引起严重的隐私问题。为了解决这些限制,最近的研究探索了使用 WiFi 天线(一维传感器)进行身体分割和关键点身体检测。本文进一步扩展了 WiFi 信号与计算机视觉中常用的深度学习架构的结合,以估计密集的人体姿势对应关系。我们开发了一种深度神经网络,可将 WiFi 信号的相位和幅度映射到 24 个人体区域内的 UV 坐标。研究结果表明,我们的模型可以利用 WiFi 信号作为唯一输入来估计多个主体的密集姿势,其性能与基于图像的方法相当。这为人类感知的低成本、可广泛访问且保护隐私的算法铺平了道路 ...
我们提出了保留聚类和相关性(PCC),这是一种新颖的降维(DR)方法,一种新颖的降维(DR)方法,可以实现最先进的全局结构(GS)保存,同时保持竞争性的局部结构(LS)保存。它优化了两个目标:GS 保留目标,保留高维距离和低维距离之间的 Pearson 和 Spearman 相关性的近似值;LS 保留目标,确保高维数据中的簇在低维数据中是可分离的。 PCC 拥有最先进的 GS 保存能力,同时具有具有竞争力的 LS 保存能力。此外,我们表明相关目标可以与 UMAP 结合,以显着提高其 GS 保留,同时将 LS 的退化降至最低。我们根据现有方法对 PCC 进行定量基准测试,并证明其在医学成像中的实用性,并表明 PCC 是一种具有竞争力的 DR 技术,在我们的基准测试中表现出卓越的 GS 保留 ...
尽管具有广泛的适用性,基于 Transformer 的模型在 System~2 推理方面仍然存在不足,缺乏人类与人工智能对齐所需的通用性和适应性。我们研究了 ARC-AGI 任务的弱点,揭示了组合概括和新颖规则适应方面的差距,并认为缩小这些差距需要彻底改革推理管道及其评估。我们提出了三个研究轴:(1)用于组合通用性的符号表示管道,(2)用于适应性的交互式反馈驱动的推理循环,以及(3)平衡这两种质量的测试时任务增强。最后,我们演示了如何调整 ARC-AGI 的评估套件来跟踪符号通用性、反馈驱动的适应性和任务级稳健性方面的进展,从而指导未来在稳健的人类与人工智能协调方面的工作 ...
推理能力对于大型语言模型 (LLM) 解决复杂任务至关重要,但实现可靠且可扩展的推理仍然具有挑战性。虽然思想链(CoT)提示已成为主流方法,但现有方法往往存在生成不受控制、质量不足以及推理路径多样性有限的问题。最近的努力通过在可执行步骤中建立推理来利用代码来增强 CoT,但此类方法通常仅限于预定义的数学问题,从而阻碍了可扩展性和通用性。在这项工作中,我们提出了 Caco(代码辅助思维链),这是一种新颖的框架,可通过代码驱动的增强自动合成高质量、可验证和多样化的指令 CoT 推理数据。与之前的工作不同,Caco 首先以统一的代码格式在现有数学和编程解决方案上微调基于代码的 CoT 生成器,然后将数据生成扩展到大量不同的推理轨迹。至关重要的是,我们通过代码执行和基于规则的过滤引入自动验证,以确保逻辑正确性和结构多样性,然后将过滤后的输出逆向工程为自然语言指令和语言 CoT,以丰富任务适应性。这种闭环过程可以实现推理数据的完全自动化、可扩展的合成,并保证可执行性。在我们创建的 Caco-1.3M 数据集上进行的实验表明,Caco 训练的模型在数学推理基准上实现了强大的竞争性能,优于现有的强大基准。进一步的分析表明,Caco 的代码锚定验证和指令多样性有助于在未见过的任务中实现卓越的泛化。我们的工作建立了一个无需人工干预即可构建自我维持、值得信赖的推理系统的范例 ...
多头注意力(MHA)是现代大型语言模型(LLM)的核心计算原语。然而,MHA 受到基本的线性缩放限制:$H$ 注意力头精确地生成 $H$ 独立注意力矩阵,在注意力计算期间头之间没有通信。这对于多步推理来说是有问题的,其中正确的答案取决于聚合来自上下文多个部分的证据并在中间推理链上构建潜在的 Token 到 Token 关系。为了解决这个问题,我们提出了 Interleaved Head Attention (IHA),它通过为每个头构造 $P$ 个伪头(通常为 $P=H$)来实现跨头混合,其中每个伪查询/键/值分别是所有 $H$ 原始查询、键和值的学习线性组合。伪查询和伪关键头之间的交互可诱导每个头高达 $P^2$ 的注意力模式,并且参数开销适中 $\mathcal{O}(H^2P)$。我们提供的理论表明,在综合多项式任务(IHA 使用 $\Theta(\sqrt{k}n^2)$ 参数与 MHA 的 $\Theta(kn^2)$ 相比)和综合顺序敏感 CPM-3 任务(IHA 使用 $\lceil\sqrt{N_{\max}}\rceil$ 头与 MHA 的 $N_{\max}$ 相比,参数数量方面效率有所提高。在现实世界的基准测试中,IHA 将 RULER 上的多键检索提高了 10-20% (4k-16k),并且在对 OpenThoughts 上的推理进行微调后,在充分关注的情况下将 GSM8K 提高了 5.8%,将 MATH-500 提高了 2.8%(多数投票) ...
专家混合 (MoE) 通过选择性激活模型参数子集来提供卓越的性能和计算效率。传统上,MoE 模型使用同质专家,每个专家具有相同的能力。然而,输入数据的不同复杂性需要具有不同能力的专家,而同质的 MoE 阻碍了有效的专家专业化和高效的参数利用。在这项研究中,我们提出了一种新颖的异构专家混合(HMoE),其中专家的规模不同,因此拥有不同的能力。这种异构性允许更专业的专家更有效地处理不同的 Token 复杂性。为了解决专家激活的不平衡问题,我们提出了一种新颖的训练目标,鼓励较小专家的频繁激活,从而提高计算效率和参数利用率。大量实验表明,HMoE 以更少的激活参数实现了更低的损失,并且在各种预训练评估基准上优于传统的同质 MoE 模型。代码将在接受后发布 ...
Pure-vision GUI代理提供了通用的交互能力,但由于高分辨率屏幕截图和历史轨迹中固有的大量时空冗余而遭受严重的效率瓶颈。我们确定了现有压缩范式中的两个关键失调:时间不匹配,其中统一的历史编码与代理的“褪色记忆”注意力模式不同;以及空间拓扑冲突,其中非结构化修剪损害了精确坐标接地所需的网格完整性,从而引发空间幻觉。为了应对这些挑战,我们引入了 GUIPruner,这是一个专为高分辨率 GUI 导航而定制的免培训框架。它协同时间自适应分辨率(TAR)和分层结构感知修剪(SSP),前者通过基于衰减的调整大小来消除历史冗余,后者优先考虑交互式前景和语义锚点,同时保护全局布局。跨不同基准的广泛评估表明,GUIPruner 始终实现最先进的性能,有效防止在高压缩下大型模型中观察到的崩溃。值得注意的是,在 Qwen2-VL-2B 上,我们的方法使 FLOP 减少了 3.4 倍,视觉编码延迟加快了 3.3 倍,同时保留了超过 94% 的原始性能,从而以最少的资源消耗实现实时、高精度导航 ...
事实证明,通过思想链(CoT)监督训练大型语言模型(LLM)对于增强其推理能力是有效的。然而,获得可靠和准确的推理监督仍然是一个重大挑战。我们提出了一种可扩展的方法,通过利用程序执行的确定性来生成高质量的 CoT 监督数据集。与依赖于昂贵的人工注释或容易出错的 LLM 生成的 CoT 的现有推理数据集生成方法不同,我们的方法从代码执行中提取可验证的、逐步的推理跟踪,并将其转换为自然语言 CoT 推理。跨不同领域的推理基准实验表明,我们的方法有效地为 LLM 提供了跨不同任务的可转移推理能力。此外,消融研究验证了我们的方法可以产生高度准确的推理数据,并通过减少无意义的重复和过度思考来减少推理过程中的整体标记长度 ...
检索增强生成(RAG)功能强大,但其有效性取决于我们使用哪些检索器以及如何使用。不同的检索器提供不同的、通常是互补的信号:BM25 捕获词汇匹配;密集检索器,语义相似。然而在实践中,我们通常基于启发式修复单个检索器,这无法概括不同的信息需求。我们是否可以为每个单独的查询动态选择和集成多个检索器,而不需要手动选择?在我们的工作中,我们通过定量分析验证了这种直觉,并引入了检索器的混合:异构检索器的零样本加权组合。大量实验表明,这种混合物是有效且高效的:尽管总共只有 0.8B 参数,但这种混合物的性能比每个单独的检索器甚至更大的 7B 模型平均分别高出 +10.8% 和 +3.9%。进一步的分析还表明,这种混合框架可以帮助将专门的非预言人类信息源合并为检索器,以实现良好的协作,与单独的模拟人类相比,相对性能提高了 58.9% ...
检索增强生成(RAG)系统严重依赖检索器模块来显示大型语言模型的相关上下文。尽管最近提出了许多检索器,每个检索器都建立在不同的排序原则上,例如词汇匹配、密集嵌入或图形引用,但仍然缺乏对这些机制如何不同和重叠的系统理解。现有的基准主要比较整个 RAG 管道或引入新的数据集,对选择或组合检索器本身几乎没有提供指导。那些比较猎犬的人直接使用一组有限的评估工具,这些工具无法捕捉互补和重叠的优势。这项工作提出了 MIGRASCOPE,一种基于互信息的 RAG 检索器分析范围。我们重新审视最先进的检索器,并引入基于信息和统计估计理论的原则性指标,以量化检索质量、冗余、协同和边际贡献。我们进一步表明,如果仔细选择,一组猎犬的表现会优于任何单个猎犬。我们利用主要 RAG 语料库开发的工具,提供有关最先进检索器贡献水平的独特见解。我们的研究结果为现代检索技术的结构提供了全新的视角,并为设计稳健高效的 RAG 系统提供了可行的指导 ...