通过控制现有面部的运动来生成肖像图像是对社交媒体行业具有重大影响的一项重要任务。为了易于使用和直观控制,应使用语义上有意义且完全解开的参数作为修改。然而,许多现有技术不提供如此细粒度的控制或使用间接编辑方法,即模仿其他个体的动作。在本文中,提出了一种肖像图像神经渲染器(PIRenderer),利用三维可变形面部模型(3DMM)的参数来控制面部运动。所提出的模型可以根据直观的修改生成具有准确运动的照片般逼真的肖像图像。直接和间接编辑任务的实验证明了该模型的优越性。同时,我们进一步扩展该模型,通过从音频输入中提取顺序运动来处理音频驱动的面部重演任务。我们证明,我们的模型可以仅从单个参考图像和驱动音频流生成具有令人信服的动作的连贯视频。我们的源代码可以通过此 https URL 获取 ...
大型语言模型(LLM)的快速发展导致开源社区和行业之间存在巨大的知识差距,这主要是因为后者依赖闭源的高质量数据和培训方法。为了解决这个问题,我们引入了 PCMind-2.1-Kaiyuan-2B,这是一个完全开源的 20 亿参数模型,专注于提高资源限制下的训练效率和效果。我们的方法包括三项关键创新:分位数数据基准方法,用于系统地比较异构开源数据集并提供有关数据混合策略的见解;多阶段范式内的战略选择性重复方案,以有效利用稀疏的高质量数据;以及按质量订购样本的多领域课程培训政策。在高度优化的数据预处理流程和针对 FP16 稳定性的架构修改的支持下,Kaiyuan-2B 实现了与最先进的完全开源模型竞争的性能,展示了针对资源有限的预训练的实用且可扩展的解决方案。我们在 Apache 2.0 许可证下在此 https URL 发布所有资产(包括模型权重、数据和代码) ...
管道并行性是大规模分布式训练的关键组成部分之一,但其效率受到管道泡沫的影响,而管道泡沫被认为是不可避免的。在这项工作中,我们引入了一种调度策略,据我们所知,该策略是第一个在同步训练语义下成功实现零管道气泡的策略。这一改进背后的关键思想是将后向计算分为两部分,一部分计算输入的梯度,另一部分计算参数。基于这个想法,我们手工制作了新颖的管道计划,其性能显着优于基线方法。我们进一步开发了一种算法,可以根据特定的模型配置和内存限制自动找到最佳调度。此外,为了真正实现零气泡,我们引入了一种新技术来绕过优化器步骤中的同步。实验评估表明,在类似的内存限制下,我们的方法在吞吐量方面优于 1F1B 调度高达 23%。当内存限制放宽时,这个数字可以进一步推至 31%。我们相信我们的结果标志着在利用管道并行性的真正潜力方面向前迈出了重要一步。我们基于此 https URL 上流行的 Megatron-LM 存储库开源了我们的实现 ...
具有可验证答案的高质量数学和逻辑数据集对于增强大型语言模型(LLM)的推理能力至关重要。虽然最近的数据增强技术促进了大规模基准的创建,但现有的 LLM 生成的数据集往往缺乏可靠性、多样性和可扩展性。为了应对这些挑战,我们引入了 PuzzleClone,这是一个使用可满足性模理论 (SMT) 大规模合成可验证数据的正式框架。我们的方法具有三个关键创新:(1)将种子谜题编码为结构化逻辑规范,(2)通过系统变量和约束随机化生成可扩展的变体,以及(3)通过复制机制确保有效性。通过应用 PuzzleClone,我们构建了一个精心策划的基准,其中包含超过 83K 个多样化且经过编程验证的谜题。生成的谜题涵盖了广泛的难度和格式,对当前最先进的模型提出了重大挑战。我们在 PuzzleClone 数据集上进行后训练(SFT 和 RL)。实验结果表明,PuzzleClone 上的训练不仅在 PuzzleClone 测试集上产生了显着的改进,而且在逻辑和数学基准上也产生了显着的改进。训练后将 PuzzleClone 平均分从 14.4 提高到 56.2,并在 7 个逻辑和数学基准上实现了高达 12.5 个绝对百分点的持续改进(AMC2023 从 52.5 到 65.0)。我们的代码和数据可在此 https URL 中获取 ...
随着大型语言模型 (LLM) 成为风险敏感环境中的高权限代理,它们引入了超出幻觉的系统性威胁,其中轻微的合规性错误可能会导致严重的数据泄露。然而,现有的基准测试侧重于基于规则的 QA,缺乏代理执行模型,忽视了对抗性交互中的合规性漂移,并且依赖于无法捕获行为退化的二进制安全指标。为了弥补这些差距,我们推出了 CNFinBench,这是一个涵盖 29 个子任务的综合基准,以专业知识、自主性和完整性为基础。它通过经过认证的监管语料库和专业财务任务来评估特定领域的能力,重建从需求解析到工具验证的端到端代理工作流程,并模拟引起行为合规漂移的多轮对抗攻击。为了量化安全降级,我们引入了有害指令合规性评分(HICS),这是一种多维安全指标,集成了特定于风险类型的扣除、多轮一致性跟踪以及基于细粒度违规触发器的严重性调整惩罚缩放。对 22 个开源/闭源模型的评估表明:LLM 在应用任务中表现良好,但缺乏强大的规则理解,单模块下降 15.4 点至完整执行链,并在多回合攻击中迅速崩溃,第 2 轮平均违规率飙升 172.3%。CNFinBench 可以通过此 https URL 和此 https URL 获得 ...
点击率(CTR)预测可预测用户单击AD的可能性,是推荐系统中的基本任务。异构信息(例如用户配置文件和行为序列)的出现描绘了来自不同方面的用户兴趣。异构信息的互惠互利整合是CTR预测成功的基石 ...
神经编解码器对于最近的语音和音频生成研究至关重要。除了信号压缩功能之外,离散编解码器还被发现可以提高下游训练效率以及与自回归语言模型的兼容性。然而,随着广泛的下游应用程序的调查,在确保不同应用程序之间的公平比较方面出现了挑战。为了解决这些问题,我们提出了一个新的开源平台 ESPnet-Codec,它基于 ESPnet 构建,专注于神经编解码器的训练和评估。 ESPnet-Codec 提供了各种音频、音乐和语音配方,使用多种广泛采用的编解码器模型进行训练和评估。我们与 ESPnet-Codec 一起推出了 VERSA,这是一个独立的评估工具包,它可以对 20 多个音频评估指标的编解码器性能进行全面评估。值得注意的是,我们证明了 ESPnet-Codec 可以集成到六个 ESPnet 任务中,支持不同的应用程序 ...
我们解决了注视目标估计的问题,其目的是预测一个人在场景中注视的位置。预测人的注视目标需要推理人的外表和场景的内容。之前的工作已经开发出越来越复杂的手工制作的凝视目标估计管道,这些管道仔细融合了来自单独场景编码器、头部编码器和深度和姿势等信号辅助模型的特征。受通用特征提取器在各种视觉任务上取得成功的启发,我们提出了 Gaze-LLE,这是一种新颖的转换器框架,它通过利用冻结的 DINOv2 编码器的特征来简化凝视目标估计。我们提取场景的单个特征表示,并应用特定于人的位置提示来使用轻量级模块解码凝视。我们在多个注视基准测试中展示了最先进的性能,并提供广泛的分析来验证我们的设计选择。我们的代码位于:此 http URL ...
我们推出了 Any4D,这是一种可扩展的多视图转换器,用于度量尺度、密集前馈 4D 重建。 Any4D 直接生成 N 帧的每像素运动和几何预测,这与之前通常关注 2 视图密集场景流或稀疏 3D 点跟踪的工作形成鲜明对比。此外,与最近从单目 RGB 视频进行 4D 重建的其他方法不同,Any4D 可以处理其他模式和传感器,例如 RGB-D 帧、基于 IMU 的自我运动和雷达多普勒测量(如果可用)。实现这种灵活框架的关键创新之一是 4D 场景的模块化表示;具体来说,每个视图的 4D 预测是使用本地相机坐标中表示的各种自我中心因素(深度图和相机内在因素)以及全局世界坐标中表示的异中心因素(相机外在因素和场景流)进行编码。我们在不同的设置中实现了卓越的性能 - 无论是在准确性(误差降低 2-3 倍)还是计算效率(速度提高 15 倍)方面,为多个下游应用程序开辟了途径 ...
大型语言模型 (LLM) 已成为自动执行各种编程任务的强大工具,包括与安全相关的任务,例如检测和修复漏洞。尽管 LLM 的能力很有前途,但当需要生成或修改预先存在的代码时, LLM 可能会引入程序员不知道的漏洞。在分析代码时,他们可能会错过明显的漏洞或发出不存在的漏洞信号。在这篇系统文献综述 (SLR) 中,我们的目标是研究使用 LLM 执行各种与代码相关的任务的安全优势和潜在缺点。特别是,首先我们关注 LLM 在用于生成代码时可能引入的漏洞类型。其次,我们分析了 LLM 在任何给定代码中检测和修复漏洞的能力,以及选择的提示策略如何影响他们在这两项任务中的表现。最后,我们深入分析了 LLM 的数据中毒攻击如何影响上述任务的性能 ...