客户生命周期价值 (LTV) 是单个用户可为企业带来的预期总收入。它广泛应用于各种业务场景,以在获取新客户时做出运营决策。由于其复杂且可变的数据分布,LTV 建模是一个具有挑战性的问题。现有的方法要么直接从后验特征分布中学习,要么利用对先验分布做出强有力假设的统计模型,这两种方法都无法捕获这些可变分布。在本文中,我们提出了一套完整的工业级LTV建模解决方案。具体来说,我们引入了顺序依赖单调网络(ODMN),它对不同时间跨度的 LTV 之间的有序依赖关系进行建模,这极大地提高了模型性能。我们进一步引入了基于分而治之思想的多分布多专家(MDME)模块,将严重不平衡的分布建模问题转化为一系列相对平衡的子分布建模问题,从而大大降低了建模复杂度。此外,引入了一种新颖的评估指标相互基尼(Mutual Gini),以更好地衡量基于洛伦兹曲线的估计值与真实标签之间的分布差异。 ODMN框架已成功部署在快手的多个业务场景中,并取得了良好的性能表现。对现实世界工业数据的大量实验证明了所提出的方法与最先进的基线(包括 ZILN 和两阶段 XGBoost 模型)相比的优越性 ...

0 0 0 0 2026/03/20 arXiv:2208.13358v1 yyyyyyy

生成逼真的人体几何动画仍然是一项具有挑战性的任务,因为它需要在有限的数据下使用细粒度的几何细节对自然服装动力学进行建模。为了应对这些挑战,我们提出了两种新颖的设计。首先,我们提出了一种紧凑的基于分布的潜在表示,可以实现高效、高质量的几何生成。我们通过在 SMPL 和头像几何形状之间建立更统一的映射来改进之前的工作。其次,我们引入了一种生成动画模型,该模型充分利用有限运动数据的多样性。我们专注于短期过渡,同时通过身份条件设计保持长期一致性。这两种设计将我们的方法表述为一个两阶段框架:第一阶段学习潜在空间,而第二阶段学习在该潜在空间内生成动画。我们对潜在空间和动画模型进行了实验。我们证明,我们的潜在空间产生的高保真人体几何形状超越了以前的方法(倒角距离降低了 90\%$)。动画模型综合了具有详细和自然动态的各种动画(用户研究得分高 2.2 倍),在所有评估指标中取得了最佳结果 ...

0 0 0 0 2026/03/20 arXiv:2512.07459v1 happy

6D 物体姿态估计可以预测物体相对于相机的变换,但对于看不见的物体来说仍然具有挑战性。现有方法通常依赖于显式构建查询图像与对象模型或模板图像之间的特征对应关系。在这项工作中,我们提出了 PoseGAM,一种几何感知的多视图框架,可以直接从查询图像和多个模板图像预测对象姿势,从而消除了显式匹配的需要。该方法建立在最新的基于多视图的基础模型架构之上,通过两种互补机制集成对象几何信息:显式基于点的几何和从几何表示网络学习的特征。此外,我们构建了一个包含不同环境条件下超过 19 万个对象的大规模综合数据集,以增强鲁棒性和泛化性。跨多个基准的广泛评估证明了我们最先进的性能,与之前的方法相比,AR 平均提高了 5.1%,并且在单个数据集上实现了高达 17.6% 的增益,这表明对看不见的物体有很强的泛化能力。项目页面:此 https URL ...

0 0 0 0 2026/03/20 arXiv:2512.10840v1 happy

真实的人体几何生成是一项重要但具有挑战性的任务,既需要保留精美的服装细节,又需要对服装与身体相互作用进行准确建模。为了应对这一挑战,我们以几何分布为基础,这是最近提出的一种表示形式,可以使用流匹配模型对单个人体几何结构进行高保真度建模。然而,将单一几何分布扩展到数据集对于大规模学习来说并不简单且效率低下。为了解决这个问题,我们通过两项关键技术提出了一种新的几何分布模型:(1)将分布编码为 2D 特征图而不是网络参数,以及(2)使用 SMPL 模型作为域而不是高斯模型并细化相关的流速场。然后,我们设计了一个生成框架,采用类似于最先进的图像和 3D 生成模型的两阶段训练范式。在第一阶段,我们使用扩散流模型将几何分布压缩到潜在空间中;第二阶段在这个潜在空间上训练另一个流模型。我们在两个关键任务上验证了我们的方法:姿势条件随机化身生成和化身一致的新颖姿势合成。实验结果表明,我们的方法优于现有最先进的方法,几何质量提高了 57% ...

0 0 0 0 2026/03/20 arXiv:2503.01448v4 happy

边界表示 (B-rep) 是现代工业设计中 CAD 模型表示的事实标准。 B-rep结构中几何和拓扑元素之间复杂的耦合迫使现有的生成方法依赖于级联多级网络,导致误差累积和计算效率低下。我们提出了 BrepGPT,一种用于 B-rep 生成的单阶段自回归框架。我们的关键创新在于 Voronoi Half-Patch (VHP) 表示,它通过将几何体分配给最近的半边并对其下一个指针进行采样,将 B-reps 分解为统一的局部单元。与需要针对不同结构级别进行多种不同编码的分层表示不同,我们的 VHP 表示有助于以单一、连贯的格式统一几何属性和拓扑关系。我们进一步利用双 VQ-VAE 将顶点拓扑和 Voronoi Half-Patches 编码为基于顶点的标记,从而实现更紧凑的顺序编码。然后训练仅解码器的 Transformer 以自回归方式预测这些标记,随后将其映射到基于顶点的特征并解码为完整的 B-rep 模型。实验表明,BrepGPT 在无条件 B-rep 生成中实现了最先进的性能。该框架还在各种应用中展现了多功能性,包括从类别标签、点云、文本描述和图像进行条件生成,以及 B-rep 自动完成和插值 ...

0 0 0 0 2026/03/20 arXiv:2511.22171v1 happy

尽管文本转语音 (TTS) 领域取得了快速进展,但开源系统仍然缺乏真正遵循指令、对核心语音属性(例如音调、语速、年龄、情感和风格)的细粒度控制。我们推出了 VoiceSculptor,这是一个开源统一系统,它通过将基于指令的语音设计和高保真语音克隆集成在一个框架中来弥补这一差距。它直接从自然语言描述生成可控的扬声器音色,支持通过检索增强生成(RAG)进行迭代细化,并提供跨多个维度的属性级编辑。然后将设计的语音渲染为提示波形并输入克隆模型,以实现下游语音合成的高保真音色传输。 VoiceSculptor 在 InstructTTSEval-Zh 上实现了开源最先进 (SOTA),并且完全开源,包括代码和预训练模型,以推进可重复的指令控制 TTS 研究 ...

0 0 0 0 2026/03/20 arXiv:2601.10629v2 Du

评估检索增强生成(RAG)管道需要语料库,其中地面事实是已知的、时间结构化的和跨工件的属性,而现实世界的数据集很少能干净地提供这些属性。安然语料库等现有资源存在法律模糊性、人口统计偏差,并且没有结构化的基本事实。纯粹的 LLM 生成的合成数据解决了法律问题,但引入了一个更微妙的问题:生成模型无法避免在这个 http URL 中产生与自己相矛盾的幻觉事实 OrgForge,一个开源多代理模拟框架,强制执行严格的物理认知边界:确定性 Python 引擎维护 SimEvent 地面实况总线;大型语言模型仅生成表面散文,受到经过验证的建议的限制。参与者本地时钟强制所有工件类型的因果时间戳正确性,消除了每个文档独立采样时间戳时出现的时间线不一致类别。我们通过中介中心性、时间边权重衰减和 Dijkstra 升级路由来形式化三个图动态子系统的压力传播,这些子系统独立于任何 LLM 来管理组织行为。 OrgForge 运行可配置的 N 天模拟,生成交错的 Slack 线程、JIRA 票证、Confluence 页面、Git 拉取请求和电子邮件,所有这些都可追溯到共享的、不可变的事件日志。我们还描述了一个因果链跟踪子系统,它累积每个事件的跨工件证据图,一个用于识别重复故障类的混合倒数排序融合复发检测器,以及一个入站/出站电子邮件引擎,通过具有概率下降模拟的门控因果链路由供应商警报、客户投诉和人力资源通信。 OrgForge 可在 MIT 许可下使用 ...

0 0 0 0 2026/03/20 arXiv:2603.14997v1 budda

开发人员广泛使用人工智能代码生成模型,旨在提高生产力和效率。然而,人工智能生成的代码也存在质量问题。生成的代码是由在公开可用代码上训练的模型生成的,已知这些代码包含错误和质量问题。这些问题可能会在开发过程中造成信任和维护方面的挑战。已经报告了与人工智能生成的代码相关的几个质量问题,包括错误和缺陷。然而,这些发现往往是分散的,缺乏系统的总结。目前缺乏全面的审查来揭示这些错误的类型和分布、可能的补救策略以及它们与特定模型的相关性。在本文中,我们系统地分析了现有的人工智能生成代码文献,以建立对生成代码中的错误和缺陷的整体了解,为未来的模型改进和质量评估提供参考。我们的目标是了解人工智能生成的代码中错误的性质和程度,并提供不同模型生成的代码中存在的错误类型和模式的分类。我们还讨论了为消除生成代码中的错误而采取的可能的修复和缓解策略 ...

0 0 0 0 2026/03/20 arXiv:2512.05239v1 myqb

高效、持续地使大型预训练模型适应新任务对于现实世界的部署至关重要,但由于灾难性遗忘和再训练的高昂成本,仍然具有挑战性。虽然像低阶自适应(LoRA)这样的参数高效调整方法可以减少计算需求,但它们缺乏严格的持续学习和知识集成的机制,而不依赖于数据重放或多个适配器。我们提出了 Share,这是一种参数高效持续微调的新颖方法,可以学习并动态更新单个共享的低秩子空间,从而实现跨多个任务和模式的无缝适应。 Share 构建了一个基础子空间,从过去的任务中提取核心知识,并通过识别基本的子空间方向逐步集成新信息。每个新任务的知识都被纳入这个不断发展的子空间中,促进向前的知识转移,同时最大限度地减少灾难性干扰。与传统 LoRA 方法相比,该方法可减少高达 100 倍的参数并节省 281 倍的内存,保持与联合训练模型相当的性能。单个共享模型可以取代数百个特定于任务的 LoRA 适配器,支持可扩展的异步持续学习。图像分类、自然语言理解、3D 姿态估计和文本到图像生成的实验验证了其有效性,使 Share 成为大规模 AI 系统中终身学习的实用且可扩展的解决方案 ...

0 0 0 0 2026/03/20 arXiv:2602.06043v1 473414095

尽管视觉语言模型 (VLM) 的最新进展在广泛的多模态任务中取得了显着进展,但从有限的视图中理解 3D 空间关系仍然是一个重大挑战。以前的推理方法通常依赖于纯文本(例如拓扑认知图)或二维视觉线索。然而,它们有限的表征能力阻碍了需要 3D 空间想象力的​​特定任务的表现。为了解决这个限制,我们提出了 3DThinker,这是一个可以像人类一样在推理时有效利用图像中嵌入的丰富几何信息的框架。我们的框架是第一个在推理过程中无需任何 3D 事先输入即可启用 3D 心理的框架,并且它不依赖于明确标记的 3D 数据进行训练。具体来说,我们的培训分为两个阶段。首先,我们执行监督训练来对齐 VLM 生成的 3D 潜在模型,同时与 3D 基础模型(例如 VGGT)进行推理。然后,我们仅根据结果信号优化整个推理轨迹,从而完善底层的 3D 心理。跨多个基准的大量实验表明,3DThinker 始终优于强大的基线,并为将 3D 表示统一到多模态推理中提供了新的视角。我们的代码可以在这个 https URL 上找到 ...

0 0 0 0 2026/03/20 arXiv:2510.18632v4 dsy