人群计数是估计无约束拥挤场景图像中物体(例如人或车辆)的数量。设计适用于各种人群图像的通用人群计数算法具有挑战性,这主要是由于对象尺度可能存在较大变化以及存在许多孤立的小簇。以前基于多分支架构的卷积运算的方法仅对一些窄尺度范围有效,并且由于孤立的聚类而无法捕获远程上下文关系。为了解决这个问题,我们提出了 SACANet,这是一种用于人群计数的新型规模自适应远程上下文感知网络。 SACANet由三个主要模块组成:金字塔上下文模块,用于提取远程上下文信息并扩大感受野;尺度自适应自注意力多分支模块,用于获得高尺度敏感性和孤立簇的检测精度;以及分层融合模块,用于融合多级自注意力特征。通过分组归一化,SACANet 在训练过程中实现了更好的最优性。我们使用 VisDrone2019 人物数据集、VisDrone2019 车辆数据集以及其他一些具有挑战性的基准进行了广泛的实验。与最先进的方法相比,SACANet 被证明是有效的,特别是对于具有不同规模和分散集群的极其拥挤的条件,并且与基线相比,实现了低得多的 MAE ...
全双工语音交互对于自然的人机交互至关重要。我们提出了一个框架,将复杂的对话分解为最小的对话单元,使系统能够独立处理每个单元并预测何时转换到下一个单元。该框架被实例化为围绕多模态大语言模型构建的半级联全双工对话系统,并由语音活动检测(VAD)和文本到语音(TTS)合成等辅助模块支持。由此产生的系统以免训练、即插即用的方式运行。在 HumDial 数据集上的实验证明了我们框架的有效性,该框架在类人口语系统挑战赛(赛道 2:全双工交互)测试集的所有团队中排名第二。代码可在 GitHub 存储库中使用此 https URL 获取 ...
随着大型语言模型(LLM)越来越多地应用于医学和法律等敏感领域,幻觉检测已成为一项关键任务。尽管已经提出了许多基准来推进这一领域的研究,但其中大多数都是人为构建的——要么通过故意的幻觉诱导,要么通过模拟交互——而不是源自真正的 LLM 与人类对话。因此,这些基准无法完全捕捉现实世界使用中发生的幻觉的特征。为了解决这一限制,我们引入了 AuthenHallu,这是第一个完全基于真实的 LLM 与人类交互构建的幻觉检测基准。对于 AuthenHallu,我们从真正的 LLM 与人类对话中选择并注释样本,从而忠实地反映了 LLM 在日常用户交互中如何产生幻觉。统计分析显示,在我们的基准测试中,31.4% 的查询-响应对出现幻觉,而在数学和数字问题等具有挑战性的领域,这一比例急剧增加至 60.0%。此外,我们探索了使用普通 LLM 本身作为幻觉探测器的潜力,并发现尽管有一些希望,但它们目前的性能在现实场景中仍然不足。数据和代码可通过此 https URL 公开获取 ...
质量和多样性是大型语言模型(LLM)培训数据的两个关键指标,从而对性能产生积极影响。现有研究通常通过首先应用质量过滤然后调整数据比例来分别优化这些指标。但是,这些方法忽略了质量和多样性之间固有的权衡,因此需要共同考虑 ...
为下游任务微调大型语言模型(LLM)通常会表现出基本的安全能力权衡,其中提高任务性能会降低安全对齐,即使在良性数据集上也是如此。这种退化现象在标准方法中持续存在,包括监督微调(SFT)和基于人类反馈的强化学习(RLHF)。虽然具有可验证奖励的强化学习(RLVR)已成为一种有前途的替代方案,可以优化客观可测量任务的模型,但其安全影响仍未得到探索。我们首次对 RLVR 的安全特性进行全面的理论和实证分析。理论上,我们推导了 KL 约束优化下安全漂移的上限,并证明了消除安全退化的条件。根据经验,我们在五个对抗性安全基准上进行了广泛的实验,证明 RLVR 可以在维持或改进安全护栏的同时增强推理能力。我们全面的消融研究检查了优化算法、模型规模和任务领域的影响。我们的研究结果挑战了不可避免的安全能力权衡的普遍假设,并确定了特定的培训方法可以同时实现这两个目标,为安全部署具有推理能力的 LLM 提供了见解 ...
在这项工作中,我们引入了 SplitNN 驱动的垂直分区,这是一种称为 SplitNN 的分布式深度学习方法的配置,以促进垂直分布特征的学习。 SplitNN 不与合作机构共享原始数据或模型详细信息。所提出的配置允许在持有不同数据源的机构之间进行培训,而无需复杂的加密算法或安全计算协议。我们评估几种配置来合并分割模型的输出,并比较性能和资源效率。该方法很灵活,允许许多不同的配置来解决垂直分割数据集带来的特定挑战 ...
现代 ASR 系统通常使用跨多个领域的大规模伪标记、野外数据进行训练。虽然这种异构数据有利于为广泛部署而设计的通用模型,但它们对针对特定领域的专业模型提出了挑战:专业模型缺乏从所有可用数据中学习的能力,并且必须更加关注解决训练和测试条件之间的不匹配问题。在这项工作中,我们研究了目标数据选择作为应对这些挑战的策略,从 10 万小时的野外训练数据中选择相关子集,以优化目标领域的性能。我们使用嵌入捕获互补特征(说话人属性、语音内容和语义)来表示语音样本,并分析在执行数据选择时沿这些轴的相关性和多样性如何影响下游 ASR 性能。我们对基于 CTC 的 Conformer 模型进行的实验表明,对策略性选择的 5% 子集进行训练可以超过在完整数据集上训练的模型的性能,目标域上的相对 WER 降低高达 36.8% ...
在过去的一年中,视频生成模型取得了显着的进步。 AI视频的质量不断提高,但以更大的模型大小,数据数量增加以及对培训计算的需求更大。在本报告中,我们提出开放式2 ...
视觉-语言-动作(VLA)模型可以实现具体决策,但严重依赖模仿学习,导致分布偏移下的复合错误和鲁棒性差。强化学习 (RL) 可以缓解这些问题,但通常需要昂贵的现实世界交互或存在模拟与现实之间的差距。我们引入了 VLA-RFT,这是一种强化微调框架,利用数据驱动的世界模型作为可控模拟器。根据真实的交互数据进行训练,模拟器可以预测以行动为条件的未来视觉观察,从而允许政策推出,并从实现目标的参考中获得密集的轨迹级奖励。这种设计提供了高效且与行动一致的学习信号,大大降低了样本要求。 VLA-RFT 的微调步骤少于 400 个,超越了强监督基线,并比基于模拟器的 RL 实现了更高的效率。此外,它在扰动条件下表现出很强的鲁棒性,维持稳定的任务执行。我们的结果将基于世界模型的 RFT 确立为一种实用的训练后范例,以增强 VLA 模型的泛化性和鲁棒性。欲了解更多详情,请参阅此https URL ...
成就。我们介绍 LORE,一个用于电子商务搜索中基于大型生成模型的相关性的系统框架。经过三年的部署和迭代,LORE 在线 GoodRate 指标累计提高了 27%。本报告分享了在其整个开发生命周期中获得的宝贵经验,涵盖数据、功能、培训、评估和部署。洞察力。虽然现有的工作应用思想链(CoT)来增强相关性,但它们经常达到性能上限。我们认为,这源于将相关性视为一项整体任务,缺乏原则性的解构。我们的主要见解是,相关性包括不同的能力:知识和推理、多模式匹配和规则遵守。我们认为,定性驱动的分解对于突破当前的性能瓶颈至关重要。贡献。 LORE 为 LLM 相关生命周期提供了完整的蓝图。主要贡献包括:(1) 一种两阶段训练范例,将通过 SFT 进行的渐进式 CoT 合成与通过 RL 进行的人类偏好调整相结合。 (2) 综合基准 RAIR,旨在评估这些核心功能。 (3)查询频率分层部署策略,将离线LLM能力高效转移到线上系统。 LORE 既是实用的解决方案,也是其他垂直领域的方法参考 ...