虽然上下文学习(ICL)在自然语言和视觉领域取得了显着的成功,但其理论理解(特别是在结构化几何数据的背景下)仍未得到探索。本文启动了 ICL 对流形上 Hölder 函数回归的理论研究。我们在注意力机制和经典核方法之间建立了一种新颖的联系,证明 Transformer 通过与提示的交互有效地对新查询执行基于核的预测。这种联系通过数值实验得到了验证,表明 Hölder 函数的学习查询提示分数与高斯核高度相关。基于这一见解,我们根据提示长度和训练任务数量得出了泛化误差范围。当观察到足够数量的训练任务时,变换器会产生流形上 Hölder 函数的极小极大回归率,该回归率随流形的内在维度而不是环境空间维度呈指数缩放。我们的结果还描述了泛化误差如何随着训练任务的数量而变化,揭示了 Transformer 作为上下文内核算法学习者的复杂性。我们的研究结果为了解几何在 ICL 中的作用以及研究非线性模型 ICL 的新颖工具提供了基础见解 ...
实时执行对于机器人等网络物理系统至关重要。这些系统在动态的现实环境中运行,即使很小的延迟也会影响响应能力并影响性能。异步推理最近已成为实时机器人操作的系统级范例,使得在执行当前动作块时能够预测下一个动作块。虽然这种方法实现了实时响应,但简单的集成通常会导致执行失败。以前的方法将这种失败归因于块间不连续性,并开发了测试时算法来平滑块边界。相比之下,我们发现了另一个关键但被忽视的因素:块内不一致,即机器人执行的动作块与其当前感知部分不一致。为了解决这个问题,我们提出 REMAC,它通过屏蔽动作分块来学习对预训练策略的纠正调整,使策略能够在异步推理期间预期动作与实际执行之间不匹配的情况下保持弹性。此外,我们引入了保留前缀的采样过程来增强块间的连续性。总的来说,我们的方法提供了更可靠的策略,而不会产生额外的延迟。在模拟和现实环境中进行的大量实验表明,我们的方法可以更快地执行任务,在不同的延迟下保持鲁棒性,并始终实现更高的完成率 ...
大型语言模型 (LLM) 彻底改变了人工智能,但它们的海量内存和计算需求需要积极的量化,日益将表示推向单个比特的理论极限。虽然像 iFairy 这样的复杂值 LLM 与实值对应项相比,提供了更好的低位表示机会,但它们需要从头开始训练,从而阻碍了预训练实值基础模型的庞大生态系统的利用。在这里,我们介绍 Fairy2i,这是一个通用框架,可将预先训练的实值层转换为等效的宽线性复数形式,在重用现有检查点的同时实现极低位量化。通过证明实数映射和宽线性映射之间的无损数学等价性,我们将标准 Transformer 转换为复数域,并采用具有高效四次单位根码本的相位感知量化方案。此外,我们引入了一种递归残差量化机制,该机制可以迭代地最小化量化误差,从而允许通过有效的无乘法累加进行推理。我们证明 Fairy2i 将 LLaMA-2 7B 在有效 2 位精度下的性能恢复到几乎与全精度基线相当的水平,显着优于最先进的实值二进制和三元量化方法。这项工作弥合了复值算术的表示效率和预训练模型的实用性之间的差距,为商品硬件的高效推理铺平了新的途径。我们在此 https URL 和此 https URL 开源 Fairy2i 模型和代码 ...
像 OpenAI-o3 这样的模型通过动态引用视觉区域开创了基于视觉的推理,就像人类“用图像思考”一样。然而,不存在全面评估这些能力的基准。为了弥补这一差距,我们提出了 TreeBench(可追踪证据评估基准),这是一个基于三个原则的诊断基准:(1)复杂场景中微妙目标的集中视觉感知,(2)通过边界框评估可追踪证据,以及(3)二阶推理来测试对象交互和超越简单对象定位的空间层次结构。我们优先考虑具有密集对象的图像,首先从 SA-1B 中采样 1K 高质量图像,并聘请 8 位 LMM 专家手动注释每张图像的问题、候选选项和答案。经过三个阶段的质量控制,TreeBench 由 405 个具有挑战性的视觉问答对组成,即使是最先进的模型也很难达到这个基准,没有一个达到 60% 的准确率,例如 OpenAI-o3 的得分仅为 54.87。此外,我们还引入了 TreeVGR(可追踪证据增强视觉基础推理),这是一种与强化学习联合监督定位和推理的训练范式,从而实现准确的定位和可解释的推理路径。它从 Qwen2.5-VL-7B 开始,改进了 V* Bench (+16.8)、MME-RealWorld (+12.6) 和 TreeBench (+13.4),证明可追溯性是推进基于视觉的推理的关键。该代码可从此 https URL 获取 ...
人类交流涉及言语和非言语信号的复杂相互作用,这对于传达意义和实现人际目标至关重要。为了开发社交智能人工智能技术,开发能够理解和生成二元行为动态的模型至关重要。为此,我们引入了无缝交互数据集,这是一个大规模集合,包含来自不同背景下 4,000 多名参与者的 4,000 多个小时的面对面交互镜头。该数据集支持开发理解二元体现动态的人工智能技术,解锁虚拟代理、远程呈现体验和多模式内容分析工具的突破。我们还开发了一套模型,利用该数据集生成与人类语音一致的二元运动手势和面部表情。这些模型可以将对话者的言语和视觉行为作为输入。我们提出了一个带有 LLM 模型语音的变体,并与 2D 和 3D 渲染方法集成,使我们更接近交互式虚拟代理。此外,我们描述了运动模型的可控变体,可以适应情绪反应和表达水平,并生成更多语义相关的手势。最后,我们讨论了评估这些二元运动模型质量的方法,这些模型展示了更直观和响应更灵敏的人机交互的潜力 ...
多模态大语言模型 (MLLM) 强大的因果能力具有在工业异常检测 (IAD) 中检测缺陷对象的潜力。然而,大多数传统的IAD方法缺乏提供多轮人机对话和详细描述的能力,例如物体的颜色、异常的形状或异常的特定类型。同时,基于大型预训练模型的方法还没有充分激发大型模型在异常检测任务中的能力。在本文中,我们探索了富文本语义与图像级和像素级信息的结合,并提出了 IAD-GPT,这是一种基于 MLLM 的 IAD 新颖范式。我们使用异常提示生成器(APG)来为特定对象生成详细的异常提示。来自大语言模型(LLM)的这些特定提示用于激活预先训练的视觉语言模型(即 CLIP)的检测和分割功能。为了增强MLLM的视觉基础能力,我们提出了文本引导增强器,其中图像特征与正常和异常文本提示交互以动态选择增强路径,这使得语言模型能够专注于视觉数据的特定方面,增强其准确解释和响应图像中异常的能力。此外,我们设计了一个多掩模融合模块,将掩模纳入专家知识,从而增强了 LLM 对像素级异常的感知。 MVTec-AD 和 VisA 数据集上的大量实验证明了我们在自我监督和少量异常检测和分割任务(例如 MVTec-AD 和 VisA 数据集)上的最先进的性能。这些代码可在 \href{此 https URL}{此 https URL} 中找到 ...
信息提取受到不同目标、异构结构和特定需求模式的影响。在本文中,我们提出了一个统一的文本到结构生成框架,即UIE,它可以对不同的IE任务进行通用建模,自适应地生成目标结构,并从不同的知识源协作学习通用的IE能力。具体来说,UIE通过结构化提取语言对不同的提取结构进行统一编码,通过基于模式的提示机制——结构模式指导器自适应地生成目标提取,并通过大规模预训练的文本到结构模型捕获常见的IE能力。实验表明,UIE 在 4 个 IE 任务、13 个数据集以及各种实体、关系、事件和情感提取任务及其统一的所有监督、低资源和少样本设置上实现了最先进的性能。这些结果验证了UIE的有效性、通用性和可移植性 ...
工业异常检测对于智能制造很重要,但许多深度学习方法仅产生二元决策并提供有限的语义解释。多模态大语言模型 (MLLM) 可以生成细粒度的、基于语言的分析,但现有方法通常需要昂贵的微调,并且与轻量级专业检测器相比,并不能持续提高异常检测的准确性。我们提出了用于 MLLM 中工业异常检测的专家增强注意力指导(EAGLE),这是一个免调整框架,集成了专家模型的输出,以指导 MLLM 进行准确检测和可解释的异常描述。我们通过检查 MLLM 对中间层异常图像区域的注意力分布,进一步研究 EAGLE 如何影响 MLLM 内部。我们观察到,成功的异常检测与异常区域注意力集中程度的增加相关,而 EAGLE 倾向于鼓励这种对齐。 MVTec-AD 和 VisA 上的实验表明,EAGLE 在无需任何参数更新的情况下提高了多个 MLLM 的异常检测性能,取得了与基于微调的方法相当的结果。代码可在 ...
使用语义 ID 的生成推荐系统,例如 TIGER(Rajput 等人,2023),已成为顺序推荐中广泛采用的竞争范式。然而,现有的架构只是为语义检索而设计的,并没有解决诸如通过广告收入货币化和商业检索竞价合并等问题。我们提出了 GEM-Rec,一个将商业相关性和货币化目标直接集成到生成序列中的统一框架。我们引入控制 Token 来将是否显示广告与显示哪个项目的决定分离。这使得模型能够直接从交互日志中学习有效的投放模式,这本质上反映了过去成功的广告投放。作为补充,我们设计了一种处理实时定价的出价感知解码机制,将出价直接注入推理过程,以引导一代人购买高价值的商品。我们证明,这种方法保证了分配的单调性,确保较高的出价会微弱地增加广告展示的可能性,而无需模型重新训练。实验表明,GEM-Rec 允许平台动态优化语义相关性和平台收入 ...
这项工作强调了视频世界建模以及视觉语言预训练为机器人学习奠定了全新且独立的基础。直观地说,视频世界模型提供了通过理解动作和视觉动态之间的因果关系来想象不久的将来的能力。受此启发,我们引入了 LingBot-VA,一种同时学习帧预测和策略执行的自回归扩散框架。我们的模型具有三种精心设计的设计:(1) 共享潜在空间,集成视觉和动作 Token ,由混合 Transformer (MoT) 架构驱动;(2) 闭环推出机制,允许通过地面实况观察持续获取环境反馈;(3) 异步推理管道,并行动作预测和电机执行以支持高效控制。我们在模拟基准和现实场景中评估我们的模型,它在长期操作、训练后的数据效率以及对新颖配置的强大通用性方面显示出巨大的前景。代码和模型是公开的,以方便社区 ...