我们提出了一种提取神经嵌入的新方法,该方法可以对语音信号的背景声学进行建模。提取的嵌入用于以非侵入方式估计与信号的背景声学特性相关的特定参数,这使得可以根据这些参数来解释嵌入。我们通过对未见过的测试数据进行聚类实验来说明这些嵌入的价值,并表明所提出的嵌入对于三个不同的任务实现了 95.2% 的平均 F1 分数,显着优于基于 WavLM 的信号嵌入。我们还表明,所提出的方法可以通过估计表征背景声学的 14 个声学参数来解释嵌入,包括混响和噪声水平、重叠语音检测、编解码器类型检测和噪声类型检测,精度高,实时因子比外部基线方法低 17 倍 ...

0 0 0 0 2026/03/10 arXiv:2406.05199v1 wenwen

虽然监督学习在许多应用中取得了巨大进步,但无监督学习尚未得到如此广泛的采用,并且仍然是人工智能的一项重要且具有挑战性的工作。在这项工作中,我们提出了一种通用的无监督学习方法,从高维数据中提取有用的表示,我们称之为对比预测编码。我们模型的关键见解是通过使用强大的自回归模型预测潜在空间中的未来来学习此类表示。我们使用概率对比损失来诱导潜在空间捕获对预测未来样本最有用的信息。它还通过使用负采样使模型易于处理。虽然大多数先前的工作都集中在评估特定模态的表示,但我们证明我们的方法能够学习有用的表示,在四个不同的领域实现强大的性能:语音、图像、文本和 3D 环境中的强化学习 ...

0 0 0 0 2026/03/10 arXiv:1807.03748v2 zhs

优化广告源中的重新排名是一个受限组合问题,需要同时最大化平台收入和保护用户体验。最近的生成排序方法通过自回归解码实现了列表优化,但它们的部署受到高推理延迟和有限的约束处理的阻碍。我们提出了一种约束感知生成重排序框架,将约束优化转化为有界神经解码。与先前将生成器模型和评估器模型分开的方法不同,我们的框架将序列生成和奖励估计统一到单个网络中。我们进一步引入约束感知奖励修剪,将约束满足直接集成到解码中,以有效地生成最优序列。大规模工业源和在线 A/B 测试的实验表明,我们的方法在满足严格的延迟要求的同时提高了收入和用户参与度,为约束列表优化提供了有效的神经解决方案 ...

0 0 0 0 2026/03/10 arXiv:2603.04227v1 tainren9

语音转换(VC)的最新进展在说话人克隆和语言保存方面取得了新的里程碑。但该领域仍然支离破碎,依赖于语言保护、表达和歌唱场景的专门模型。我们提出了 OneVoice,这是一个统一的零样本框架,能够在单个模型中处理所有三种场景。 OneVoice 建立在连续语言模型的基础上,该模型经过无 VAE 的下一个补丁扩散训练,可确保高保真度和高效的序列建模。其统一的核心设计在于专家混合 (MoE),旨在显式建模共享转换知识和特定于场景的表达能力。专家选择由双路径路由机制协调,包括共享专家隔离和具有全局本地线索的场景感知领域专家分配。为了精确调节,特定于场景的韵律特征通过门控机制融合到每一层中,从而允许自适应地使用韵律信息。此外,为了实现核心思想并缓解不平衡问题(丰富的语音与稀缺的歌唱),我们采用了两阶段渐进式训练,包括基础预训练和基于 LoRA 的领域专家的场景增强。实验表明,OneVoice 在所有三种场景下都匹配或超越了专门模型,同时验证了对场景的灵活控制并提供了仅需 2 个步骤的快速解码版本。代码和模型即将发布 ...

0 0 0 0 2026/03/10 arXiv:2601.18094v1 mahok8

由于对模拟与真实差距的鲁棒性有限以及针对目标部署环境(例如家庭、餐馆和工厂)定制训练策略的困难,视觉导航模型通常在现实动态环境中陷入困境。尽管使用 3D 高斯溅射 (GS) 的实到模拟导航模拟可以缓解这些挑战,但之前基于 GS 的工作仅考虑静态场景或由模拟器资产构建的非真实感人体障碍物,尽管动态环境中的安全导航很重要。为了解决这些问题,我们提出了 ReaDy-Go,这是一种新颖的实到模拟模拟管道,通过用动态人类 GS 障碍增强重建的静态 GS 场景来合成目标环境中逼真的动态场景,并使用生成的数据集训练导航策略。该管道提供了三个关键贡献:(1) 动态 GS 模拟器,将静态场景 GS 与人类动画模块集成,从而能够插入可动画的人类 GS 化身,并从 2D 轨迹合成合理的人体运动;(2) 导航数据集生成框架,利用模拟器以及专为动态 GS 表示和人类规划器设计的机器人专家规划器;(3) 针对模拟到真实间隙和移动障碍物的稳健导航策略。所提出的模拟器可以从任意角度生成数千个逼真的导航场景,并带有可动画的人类 GS 头像。在模拟和现实实验中,ReaDy-Go 的性能均优于目标环境的基线,即使在模拟到真实的传输之后以及存在移动障碍物的情况下,导航性能也得到了改善。此外,在看不见的环境中进行零样本模拟到真实部署表明了其泛化潜力。项目页面:此 https URL ...

0 0 0 0 2026/03/10 arXiv:2602.11575v2 jesson

生成模型为多阶段推荐系统中的最后阶段重新排名提供了一种有前景的范例,能够捕获重新排名列表中的项目间依赖关系。然而,它们的实际部署仍然面临两个关键挑战:(1)实现高生成质量和确保低延迟推理之间的固有冲突,使得两者难以平衡;(2)现有方法中用户和项目特征之间的交互不足。为了应对这些挑战,我们提出了一种新颖的个性化半自回归与在线知识蒸馏(PSAD)框架进行重新排名。在该框架中,教师模型采用半自回归生成器来平衡生成质量和效率,而其排名知识在联合训练期间在线提炼为轻量级评分网络,从而实现实时高效的推理。此外,我们提出了一个用户配置文件网络(UPN),它注入用户意图并模拟兴趣动态,从而实现用户和项目之间更深入的交互。在三个大型公共数据集上进行的大量实验表明,PSAD 在排名性能和推理效率方面均显着优于最先进的基线 ...

0 0 0 0 2026/03/10 arXiv:2603.07107v1 tainren9

人工智能驱动的分析对于以数据为中心的决策越来越重要。将数据导出到机器学习运行时的做法会产生很高的开销,限制了数据漂移的鲁棒性,并扩大了攻击面,特别是在多租户、异构数据系统中。将人工智能直接集成到数据库引擎中,虽然提供了明显的好处,但在管理联合查询处理和模型执行、优化端到端性能、在资源争用下协调执行以及强制执行强大的安全和访问控制保证方面带来了挑战。本文讨论了人工智能驱动的数据系统中联合 DB-AI(或 AIxDB)数据管理和查询处理的挑战。它提出了需要仔细解决的各种挑战,例如查询优化、执行调度和异构硬件上的分布式执行。需要重新检查事务管理和访问控制等数据库组件,以支持人工智能生命周期管理、减少数据漂移并保护敏感数据免受未经授权的人工智能操作的影响。我们提出了一个设计和初步结果,以证明什么可能是 AIxDB 查询服务性能的关键 ...

0 0 0 0 2026/03/10 arXiv:2603.03772v1 HenryLee

人群计数是估计无约束拥挤场景图像中物体(例如人或车辆)的数量。设计适用于各种人群图像的通用人群计数算法具有挑战性,这主要是由于对象尺度可能存在较大变化以及存在许多孤立的小簇。以前基于多分支架构的卷积运算的方法仅对一些窄尺度范围有效,并且由于孤立的聚类而无法捕获远程上下文关系。为了解决这个问题,我们提出了 SACANet,这是一种用于人群计数的新型规模自适应远程上下文感知网络。 SACANet由三个主要模块组成:金字塔上下文模块,用于提取远程上下文信息并扩大感受野;尺度自适应自注意力多分支模块,用于获得高尺度敏感性和孤立簇的检测精度;以及分层融合模块,用于融合多级自注意力特征。通过分组归一化,SACANet 在训练过程中实现了更好的最优性。我们使用 VisDrone2019 人物数据集、VisDrone2019 车辆数据集以及其他一些具有挑战性的基准进行了广泛的实验。与最先进的方法相比,SACANet 被证明是有效的,特别是对于具有不同规模和分散集群的极其拥挤的条件,并且与基线相比,实现了低得多的 MAE ...

0 0 0 0 2026/03/10 arXiv:1909.03839v1 susu_kk

全双工语音交互对于自然的人机交互至关重要。我们提出了一个框架,将复杂的对话分解为最小的对话单元,使系统能够独立处理每个单元并预测何时转换到下一个单元。该框架被实例化为围绕多模态大语言模型构建的半级联全双工对话系统,并由语音活动检测(VAD)和文本到语音(TTS)合成等辅助模块支持。由此产生的系统以免训练、即插即用的方式运行。在 HumDial 数据集上的实验证明了我们框架的有效性,该框架在类人口语系统挑战赛(赛道 2:全双工交互)测试集的所有团队中排名第二。代码可在 GitHub 存储库中使用此 https URL 获取 ...

0 0 0 0 2026/03/10 arXiv:2601.20230v2 ka

随着大型语言模型(LLM)越来越多地应用于医学和法律等敏感领域,幻觉检测已成为一项关键任务。尽管已经提出了许多基准来推进这一领域的研究,但其中大多数都是人为构建的——要么通过故意的幻觉诱导,要么通过模拟交互——而不是源自真正的 LLM 与人类对话。因此,这些基准无法完全捕捉现实世界使用中发生的幻觉的特征。为了解决这一限制,我们引入了 AuthenHallu,这是第一个完全基于真实的 LLM 与人类交互构建的幻觉检测基准。对于 AuthenHallu,我们从真正的 LLM 与人类对话中选择并注释样本,从而忠实地反映了 LLM 在日常用户交互中如何产生幻觉。统计分析显示,在我们的基准测试中,31.4% 的查询-响应对出现幻觉,而在数学和数字问题等具有挑战性的领域,这一比例急剧增加至 60.0%。此外,我们探索了使用普通 LLM 本身作为幻觉探测器的潜力,并发现尽管有一些希望,但它们目前的性能在现实场景中仍然不足。数据和代码可通过此 https URL 公开获取 ...

0 0 0 0 2026/03/10 arXiv:2510.10539v2 ly123456