为了对超出专家软件开发能力的生成系统进行基准测试,我们引入了 Commit0,这是一个挑战 AI 代理从头开始编写库的基准测试。为代理提供了概述库 API 的规范文档以及一套交互式单元测试,目的是相应地生成此 API 的实现。通过运行这些单元测试来验证实现。作为基准,Commit0 旨在超越静态一次性代码生成,转向必须处理长格式自然语言规范、适应多阶段反馈并生成具有复杂依赖关系的代码的代理。 Commit0 还提供了一个交互式环境,模型可以在其中接收对其生成的代码的静态分析和执行反馈。我们的实验表明,虽然当前的代理可以通过一些单元测试,但还没有一个代理可以完全重现完整的库。结果还表明,交互式反馈对于模型生成通过更多单元测试的代码非常有用,从而验证有助于其使用的基准 ...

0 0 0 0 2025/12/27 arXiv:2412.01769v1 yywdys

传统的推荐系统(RS)通常使用用户项目评分历史作为其主要数据源。然而,深度生成模型现在能够对复杂的数据分布(包括用户-项目交互、文本、图像和视频)进行建模和采样,从而实现新颖的推荐任务。这项全面、多学科的调查将 RS 使用生成模型 (Gen-RecSys) 的关键进展联系起来,涵盖:交互驱动的生成模型;使用大语言模型(LLM)和文本数据进行自然语言推荐;以及用于在 RS 中生成和处理图像/视频的多模态模型的集成。我们的工作强调了评估 Gen-RecSys 的影响和危害的必要范例,并确定了开放的挑战。这项调查附带 ACM KDD'24 上提供的教程,并在以下网址提供支持材料:此 https URL ...

0 0 0 0 2025/12/27 arXiv:2404.00579v2 18751957996

在存储库级代码库中实现新功能是代码生成模型的重要应用。然而,当前的基准测试缺乏针对此功能的专用评估框架。为了填补这一空白,我们引入了 FEA-Bench,这是一个基准测试,旨在评估大型语言模型 (LLM) 在代码存储库中执行增量开发的能力。我们从 83 个 GitHub 存储库收集拉取请求,并使用基于规则和基于意图的过滤来构建专注于新功能开发的任务实例。每个包含代码更改的任务实例都与相关的单元测试文件配对,以确保解决方案可以得到验证。该功能的实现要求LLM同时具备新组件的代码补全能力和代码库中其他相关部分的代码编辑能力,为LLM的自动化软件工程能力提供更全面的评估方法。实验结果表明,LLM 在 FEA-Bench 中的表现明显较差,凸显了此类存储库级增量代码开发面临的巨大挑战 ...

0 0 0 0 2025/12/27 arXiv:2503.06680v2 yywdys

无监督句子表示学习旨在将输入句子转换为富含复杂语义信息的固定长度向量,同时避免对标记数据的依赖。对比学习和即时工程方面的突破极大地推动了该领域最近的进步。尽管取得了这些进步,该领域仍达到了一个平台期,导致一些研究人员结合外部组件来提高句子嵌入的质量。这种集成虽然有益,但使解决方案变得复杂并增加了对计算资源的需求。为了应对这些挑战,本文提出了 CoT-BERT,这是一种创新方法,利用思想链推理的渐进式思维来挖掘 BERT 等预训练模型的潜在潜力。此外,我们开发了一种先进的对比学习损失函数,并提出了一种新颖的模板去噪策略。严格的实验表明,CoT-BERT 仅依靠预训练模型的内在优势,超越了一系列既定的基线 ...

0 0 0 0 2025/12/27 arXiv:2309.11143v4 1878559188

作为一种重要的图预训练方法,图对比学习(GCL)在图基础模型或 LLM 作为图增强器的研究不断涌现的过程中继续发挥着至关重要的作用。传统的 GCL 通过使用增强来定义自我监督任务来优化 InfoNCE,将增强对视为正样本,将其他样本视为负样本。然而,这会导致语义相似的对被分类为负数,从而导致显着的采样偏差并限制性能。在本文中,我们认为 GCL 本质上是一个正向未标记(PU)学习问题,其中自监督任务的定义应该是语义引导的,即具有相似语义的增强样本被认为是正向的,而其他具有未知语义的样本则被视为未标记的。从这个角度来看,关键在于如何提取语义信息。为了实现这一目标,我们提出了 IFL-GCL,使用 InfoNCE 作为“免费午餐”来提取语义信息。具体来说,我们首先证明在 InfoNCE 下,节点对的表示相似性与相应对比样本为正的概率一致。然后,我们根据校正后的样本重新定义最大似然目标,从而产生新的 InfoNCE 损失函数。对图预训练框架和 LLM 作为增强器的大量实验表明,IFL-GCL 在 IID 和 OOD 场景中都有显着改进,实现了高达 9.05% 的改进,验证了语义引导的有效性。 IFL-GCL 的代码可在以下位置公开获取:此 https URL ...

0 0 0 0 2025/12/26 arXiv:2505.06282v1 18207429651

查询-产品相关性预测是电子商务搜索中的核心任务。基于 BERT 的模型擅长语义匹配,但缺乏复杂的推理能力。虽然大型语言模型 (LLM) 得到了探索,但大多数仍然使用有区别的微调或提炼为更小的模型进行部署。我们提出了一个直接为该任务部署 LLM 的框架,解决了关键挑战:思想链(CoT)错误积累、辨别性幻觉和部署可行性。我们的框架,TaoSR1,涉及三个阶段:(1)带有CoT的监督微调(SFT)以灌输推理; (2)采用pass@N策略和直接偏好优化(DPO)进行离线采样,以提高发电质量; (3)基于难度的动态采样与组相对策略优化(GRPO),以减轻歧视性幻觉。此外,CoT 后处理和基于累积概率的分区方法可实现高效的在线部署。 TaiSR1 显着优于离线数据集的基线,并在在线并行人类评估中取得了实质性进展,引入了将 CoT 推理应用于相关性分类的新颖范式 ...

0 0 0 0 2025/12/26 arXiv:2508.12365v3 jessie

视觉-语言-动作 (VLA) 模型正在推动机器人技术的一场革命,使机器能够理解指令并与物理世界交互。这个领域正在爆炸性地出现新的模型和数据集,使得跟上步伐既令人兴奋又充满挑战。这项调查为 VLA 景观提供了清晰、结构化的指南。我们将其设计为遵循研究人员的自然学习路径:我们从任何 VLA 模型的基本模块开始,通过关键里程碑追溯历史,然后深入研究定义近期研究前沿的核心挑战。我们的主要贡献是对五个最大挑战的详细分析:(1) 表示、(2) 执行、(3) 泛化、(4) 安全性和 (5) 数据集和评估。这种结构反映了多面手代理的发展路线图:建立基本的感知-行动循环,跨不同实施例和环境扩展能力,并最终确保值得信赖的部署——所有这些都由基本数据基础设施支持。对于每一个,我们都会回顾现有的方法并强调未来的机会。我们将本文定位为新手的基础指南和经验丰富的研究人员的战略路线图,其双重目标是加速学习和激发具身智能的新想法。我们的 \href{此 https URL}{项目页面} 上维护着该调查的实时版本,并不断更新 ...

0 0 0 0 2025/12/26 arXiv:2512.11362v3 jesson

在本文中,我们提供了一个大型视听说话人识别数据集 VoxBlink2,其中包含来自 11 万多个说话人的约 1000 万条话语和视频。该数据集是对 VoxBlink 数据集的重大扩展,通过优化的数据收集管道涵盖了更广泛的说话者和场景多样性。随后,我们探索了训练策略、数据规模和模型复杂性对说话人验证的影响,并最终在 VoxCeleb1-O 测试集上建立了一个新的单模型最先进的 EER 为 0.170%,minDCF 为 0.006%。如此出色的结果激励我们从一个新的具有挑战性的角度探索说话人识别。我们提出了开放集说话人识别任务,该任务旨在将探测话语与已知的图库说话人进行匹配,或者将其分类为未知查询。与此任务相关,我们设计了具体的基准和评估协议。数据和模型资源可以在此http URL中找到 ...

0 0 0 0 2025/12/26 arXiv:2407.11510v1 mahok8

自动出价通过自动为广告商提供出价,在促进在线广告方面发挥着至关重要的作用。强化学习 (RL) 在自动出价方面越来越受欢迎。然而,当前大多数强化学习自动投标方法都是通过马尔可夫决策过程(MDP)建模的,该过程假设马尔可夫状态转换。这种假设限制了在长期场景中的执行能力,并使模型在处理高度随机的在线广告环境时不稳定。为了解决这个问题,本文介绍了人工智能生成竞价(AIGB),这是一种通过生成建模自动竞价的新范例。在这个范例中,我们提出了 DiffBid,一种用于生成投标的条件扩散建模方法。 DiffBid 直接对回报与整个轨迹之间的相关性进行建模,有效避免了长范围内跨时间步长的误差传播。此外,DiffBid 提供了一种生成轨迹的通用方法,可以在遵守特定约束的同时最大化给定目标。在真实数据集上进行的大量实验以及阿里巴巴广告平台上的在线 A/B 测试证明了 DiffBid 的有效性,实现了 GMV 提升 2.81% 和 ROI 提升 3.36% ...

0 0 0 0 2025/12/26 arXiv:2405.16141v4 naristlia

我们推出了 VoiceCraft-X,这是一种自回归神经编解码器语言模型,它统一了 11 种语言的多语言语音编辑和零样本文本到语音 (TTS) 合成:英语、普通话、韩语、日语、西班牙语、法语、德语、荷兰语、意大利语、葡萄牙语和波兰语。 VoiceCraft-X 利用 Qwen3 大语言模型进行无音素跨语言文本处理,并采用新颖的标记重新排序机制(具有时间对齐的文本和语音标记)来将这两项任务作为单个序列生成问题来处理。该模型可生成高质量、自然的语音,在一个框架内无缝创建新音频或编辑现有录音。 VoiceCraft-X 在不同的语言环境中表现出强大的性能,即使每种语言的数据有限,也突显了统一自回归方法在推进复杂的、现实世界的多语言语音应用程序方面的强大功能。音频样本可在此 https URL 获取 ...

0 0 0 0 2025/12/26 arXiv:2511.12347v1 rosyclouds