检索增强生成(RAG)系统严重依赖检索器模块来显示大型语言模型的相关上下文。尽管最近提出了许多检索器,每个检索器都建立在不同的排序原则上,例如词汇匹配、密集嵌入或图形引用,但仍然缺乏对这些机制如何不同和重叠的系统理解。现有的基准主要比较整个 RAG 管道或引入新的数据集,对选择或组合检索器本身几乎没有提供指导。那些比较猎犬的人直接使用一组有限的评估工具,这些工具无法捕捉互补和重叠的优势。这项工作提出了 MIGRASCOPE,一种基于互信息的 RAG 检索器分析范围。我们重新审视最先进的检索器,并引入基于信息和统计估计理论的原则性指标,以量化检索质量、冗余、协同和边际贡献。我们进一步表明,如果仔细选择,一组猎犬的表现会优于任何单个猎犬。我们利用主要 RAG 语料库开发的工具,提供有关最先进检索器贡献水平的独特见解。我们的研究结果为现代检索技术的结构提供了全新的视角,并为设计稳健高效的 RAG 系统提供了可行的指导 ...
我们提出了一种数据清理方法,利用神经分析与合成(NANSY++)框架来训练用于歌手二值化的端到端神经二值化模型(EEND)。我们提出的模型将流行音乐中常见的合唱歌曲数据转换为独唱数据,不适合生成模拟数据集。这种清理基于 NANSY++,它是一个经过训练以重建输入非重叠音频信号的框架。我们利用预先训练的 NANSY++ 将合唱歌声转换为干净、不重叠的音频。这种清理过程可以减少合唱演唱与独唱的错误标签,并有助于 EEND 模型的有效训练,即使大多数可用歌曲数据包含合唱部分也是如此。我们使用我们提出的方法,使用带注释的流行二重唱歌曲,对使用数据集训练的 EEND 模型进行了实验评估。结果,我们提出的方法将二值化错误率提高了 14.8 个百分点 ...
现代数据越来越高维和异方差。本文考虑了从高维数据中估计潜在主成分的挑战,这些数据的噪声在样本之间是异方差的,即某些样本比其他样本噪声更大。例如,当组合来自不同来源或传感器的数据时,这种异方差性自然会出现。解释这种异方差性的一种自然方法是,通过使用加权样本协方差矩阵的前导特征向量,在 PCA 中给予噪声较大的样本块较小的权重。我们考虑选择权重以最佳地恢复底层组件的问题。一般来说,人们无法知道这些最佳权重,因为它们取决于我们寻求估计的基础成分。然而,我们表明,在一些自然统计假设下,最佳权重收敛于高维数据的信号和噪声方差的简单函数。令人惊讶的是,最佳权重并不是实践中常用的逆噪声方差权重。我们通过数值模拟以及与现有加权方案的比较来证明理论结果。最后,我们简要讨论了当真实方差未知时如何使用估计的信号和噪声方差,并说明了天文学实际数据的最佳权重 ...
我们提出了一种使用反馈驱动的改进链通过偏好监督来微调语言模型的方法和数据集。给定模型响应,注释者通过标记“喜欢”和“不喜欢”范围并指定他们喜欢或不喜欢的内容来提供细粒度的反馈。然后,基础模型相应地重写不喜欢的跨度,从左到右进行,形成一系列增量改进。我们构建偏好对,以便从链中的每个相邻步骤直接对齐,使模型能够从本地化、有针对性的编辑中学习。我们发现我们的方法优于基于标准 A/B 偏好排名或完全对比重写的直接对齐方法,这表明结构化的、基于修订的监督可以带来更高效和有效的偏好调整 ...
元胞自动机及其可微对应物神经元胞自动机 (NCA) 具有高度表达能力,并且能够执行令人惊讶的复杂行为。本文探讨了 NCA 在应用于需要精确转换和小样本泛化的任务时的表现,使用通用人工智能抽象和推理语料库 (ARC-AGI) 作为一个领域,以以前未探索过的方式挑战它们的能力。具体来说,本文使用基于梯度的训练来学习迭代更新规则,将输入网格转换为训练示例的输出,并将其应用于测试输入。结果表明,梯度训练的 NCA 模型是解决 ARC 一系列基于网格的抽象任务的一种有前途且有效的方法。除了讨论各种设计修改和训练限制的影响外,这项工作还研究了应用于 ARC 的 NCA 的行为和属性,为自组织系统的更广泛应用提供见解 ...
点击率 (CTR) 预测是在线按需食品配送 (OFD) 平台中的一项关键任务,用于精确估计用户点击食品的概率。与淘宝、亚马逊等通用电商平台不同,OFD平台上的用户行为和兴趣由于配送范围和区域性商品供应的有限,对地点和时间更加敏感。然而,OFD场景中现有的CTR预测算法集中于从历史行为序列中捕获兴趣,无法有效地对特征内复杂的时空信息进行建模,导致性能较差。为了应对这一挑战,本文使用三个模块介绍了不同搜索状态下的对比Sres:对比时空表示学习(CSRL)、时空偏好提取器(StPE)和时空信息过滤器(StIF)。 CSRL 利用对比学习框架来生成搜索动作的时空激活表示 (SAR)。 StPE利用SAR,利用多头注意力机制,从历史行为序列场中激活用户与位置和时间相关的多样化偏好。 StIF 将 SAR 纳入门控网络,以自动捕获具有潜在时空效应的重要特征。在两个大型工业数据集上进行的大量实验证明了 CSPM 的最先进性能。值得注意的是,CSPM 已成功部署在阿里巴巴在线 OFD 平台的该 http URL 中,导致点击率显着提升 0.88%,这具有重大的商业意义 ...
我们提出了一种无需训练的基于图的方法,用于解决 ARC-AGI-3 基准中的交互式推理任务。 ARC-AGI-3 包含类似游戏的任务,其中代理必须通过有限的交互来推断任务机制,并随着关卡的进展而适应不断增加的复杂性。成功需要形成假设、测试它们并跟踪发现的机制。该基准测试表明,最先进的 LLM 目前无法可靠地解决这些任务。我们的方法将基于视觉的帧处理与使用图结构表示的系统状态空间探索相结合。它将视觉框架分割成有意义的组件,根据视觉显着性对操作进行优先级排序,并维护探索状态和转换的有向图。通过跟踪访问的状态和测试的操作,代理会优先考虑为未测试的状态-操作对提供最短路径的操作。在 ARC-AGI-3 预览挑战赛中,这种结构化探索策略在六场比赛中解决了 52 个关卡中的中值 30 个,并在私人排行榜上排名第三,大大优于基于 LLM 的前沿代理。这些结果表明,即使没有学习,显式的图结构探索也可以作为交互式推理的强大基线,并强调在当前 LLM 无法捕获任务动态的稀疏反馈环境中系统状态跟踪和动作优先级的重要性。该代码是开源的,可通过此 https URL 获取 ...
通过利用多教师蒸馏,凝聚视觉主干提供了一个统一的学生模型,保留并提高了多位教师的独特能力。在本技术报告中,我们描述了 C-RADIO 系列模型的最新版本 C-RADIOv4,它在设计上基于 AM-RADIO/RADIOv2.5,在相同的计算复杂性下对关键下游任务提供了强大的改进。我们发布了 -SO400M(412M 参数)和 -H (631M) 模型变体,两者均由更新的教师集进行训练:SigLIP2、DINOv3 和 SAM3。除了核心指标的改进和模仿 SAM3 的新功能之外,C-RADIOv4 型号系列还进一步改进了任何分辨率支持,带回了 ViTDet 选项以大幅提高高分辨率下的效率,并附带许可 ...
LLM 时代的传统观点认为,解决 ARC-AGI-1 基准测试中类似 IQ 测试的视觉难题需要从大量预训练中获得的能力。为了解决这个问题,我们引入了 CompressARC,这是一种没有任何预训练的 76K 参数模型,通过纯粹在推理时间内最小化目标谜题的描述长度 (MDL) 来解决 20% 的评估谜题。 MDL 赋予 CompressARC 极端的泛化能力,这在深度学习中是闻所未闻的。据我们所知,CompressARC 是 ARC-AGI 唯一的深度学习方法,其中训练仅在单个样本上进行:目标推理难题本身,并删除了最终解决方案信息。此外,CompressARC 并不在预先提供的 ARC-AGI“训练集”上进行训练。在数据极其有限的条件下,我们通常根本不期望任何谜题能够被解决。然而 CompressARC 仍然解决了各种分布的创造性 ARC-AGI 难题,这表明 MDL 是除了传统预训练之外的另一种可行的产生智能的方法 ...
这项工作提出了 FireRedTTS,一种基础文本转语音框架,以满足对个性化和多样化生成语音应用不断增长的需求。该框架由数据处理、基础系统、下游应用三部分组成。首先,我们全面介绍我们的数据处理流程,将大量原始音频转换为大规模高质量的 TTS 数据集,该数据集具有丰富的注释以及内容、说话风格和音色的广泛覆盖。然后,我们提出了一种基于语言模型的基础 TTS 系统。语音信号通过语义感知语音标记器被压缩为离散的语义标记,并且可以由语言模型根据提示文本和音频生成。然后,提出了一个两级波形发生器将它们解码为高保真波形。我们展示了该系统的两个应用:用于配音的语音克隆和用于聊天机器人的类人语音生成。实验结果证明了FireRedTTS扎实的上下文学习能力,可以稳定地合成与提示文本和音频一致的高质量语音。在配音方面,FireRedTTS可以针对UGC场景以零镜头的方式克隆目标声音,并通过1小时录音的少镜头微调来适应PUGC场景中演播室级别的表现力语音角色。此外,FireRedTTS通过指令调整,实现了具有副语言行为和情感的休闲风格的可控类人语音生成,更好地服务于语音聊天机器人 ...