文档中的多个实体通常表现出复杂的句子间关系,并且通常专注于提取单个实体对的句子内关系的现有关系提取(RE)方法不能很好地处理。为了加速文档级 RE 的研究,我们引入了 DocRED,这是一个由 Wikipedia 和 Wikidata 构建的新数据集,具有三个特征:(1)DocRED 对命名实体和关系进行注释,是纯文本文档级 RE 的最大人工注释数据集; (2)DocRED需要读取文档中的多个句子来提取实体,并通过综合文档的所有信息来推断它们的关系; (3) 除了人工注释的数据外,我们还提供大规模远程监督数据,这使得 DocRED 可以用于监督和弱监督场景。为了验证文档级 RE 的挑战,我们实施了最新的 RE 方法,并在 DocRED 上对这些方法进行了彻底的评估。实证结果表明,DocRED 对现有的 RE 方法具有挑战性,这表明文档级 RE 仍然是一个悬而未决的问题,需要进一步的努力。基于对实验的详细分析,我们讨论了未来研究的多个有希望的方向 ...
机器人学习的最新进展加速了多功能机器人的发展,使其能够在人类环境中执行日常任务。然而,仍然很难衡量我们距离这一愿景有多远。该领域缺乏可重复的、大规模的系统评估基准。为了填补这一空白,我们推出了 RoboCasa365,这是一款针对家庭移动操作的综合模拟基准。 RoboCasa365 基于 RoboCasa 平台构建,引入了 2,500 个不同厨房环境中的 365 项日常任务,拥有超过 600 小时的人类演示数据和超过 1600 小时的综合生成的演示数据,使其成为研究通才政策的最多样化、最大规模的资源之一。 RoboCasa365旨在支持针对不同问题设置的系统评估,包括多任务学习、机器人基础模型训练和终身学习。我们使用最先进的方法在此基准上进行了广泛的实验,并分析了任务多样性、数据集规模和环境变化对泛化的影响。我们的研究结果为哪些因素对通用机器人的性能影响最大提供了新的见解,并为该领域未来的进展提供了策略 ...
客户终身价值 (CLTV) 预测是业务应用程序中的一项关键任务。在现实业务场景中,准确预测 CLTV 具有挑战性,因为 CLTV 的分布复杂且可变。首先,有大量的用户没有任何消费,由长尾部分组成,过于复杂,难以适应。其次,一小部分高价值用户的花费比典型用户高出几个数量级,导致 CLTV 分布范围广泛,很难在单个分布中捕获。现有的 CLTV 估计方法要么假设先验概率分布并为所有样本拟合一组与分布相关的参数,要么以启发式方式使用手动预定义的存储桶直接从后验分布中学习。然而,所有这些方法都无法处理复杂且可变的分布。在本文中,我们提出了一种用于 CLTV 预测的新型最优分布选择模型 OptDist,它利用自适应最优子分布选择机制来提高复杂分布建模的准确性。具体来说,OptDist 在分布学习模块(DLM)中训练几个候选子分布网络,用于对 CLTV 的概率分布进行建模。然后,提出了分布选择模块(DSM)来为每个样本选择子分布,从而实现自动自适应选择。此外,我们设计了连接两个模块的对齐机制,有效指导优化。我们对两个公共数据集和一个私有数据集进行了广泛的实验,以验证 OptDist 的性能优于最先进的基线。此外,OptDist已部署在大型金融平台上用于获客营销活动,在线实验也证明了OptDist的有效性 ...
物理人景交互(HSI)在众多应用中发挥着至关重要的作用。然而,现有的HSI技术仅限于特定的对象动态和特权信息,这阻碍了更全面的应用程序的开发。为了解决这个限制,我们引入了 HumanVLA,用于由实际视觉和语言指导的一般对象重新排列。利用师生框架来开发 HumanVLA。首先使用目标条件强化学习和对抗性运动先验来训练基于状态的教师策略。然后,通过行为克隆将其提炼成视觉-语言-动作模型。我们提出了几个关键见解来促进大规模学习过程。为了支持物理人形物体的一般对象重新排列,我们引入了一种新颖的“人在房间”数据集,其中包含各种重新排列任务。通过大量的实验和分析,我们证明了所提出方法的有效性 ...
学术咨询对于学生在高等教育中取得成功至关重要,但学生与导师的比例较高,限制了导师提供及时支持的能力,尤其是在高峰时期。大型语言模型 (LLM) 的最新进展为增强咨询流程提供了机会。我们推出了 AdvisingWise,这是一个多代理系统,可以自动执行耗时的任务,例如信息检索和回复起草,同时保留人工监督。 AdvisingWise 利用权威机构资源,自适应地提示学生他们的学术背景,以生成可靠、个性化的答复。所有系统响应在交付给学生之前都经过人工顾问验证。我们通过混合方法评估 AdvisingWise:(1) 对 20 个样本查询的响应进行专家评估,(2) LLM 作为法官对信息检索策略进行评估,以及 (3) 与 8 名学术顾问一起进行用户研究,以评估系统的实际效用。我们的评估表明 AdvisingWise 可以生成准确、个性化的响应。顾问们表示,在使用 AdvisingWise 后,他们的看法越来越积极,因为他们最初对可靠性和个性化的担忧减少了。最后,我们讨论了人类与人工智能协同作用对学术咨询实践的影响 ...
大型语言模型 (LLM) 在帮助开发人员解决与代码相关的问题方面表现出了良好的前景;然而, LLM 存在产生不可靠答案的风险。为了解决这个问题,人们提出了检索增强生成(RAG)来减少 LLM 的不可靠性(即幻觉)。然而,由于设计选择众多,设计有效的管道仍然具有挑战性。在本文中,我们构建了一个包含超过 300 万个 Java 和 Python 相关 Stack Overflow 帖子以及公认答案的检索语料库,并探索了各种 RAG 管道设计来回答开发人员的问题,评估它们在生成准确可靠的响应方面的有效性。更具体地说,我们(1)设计和评估 7 种不同的 RAG 管道和 63 种管道变体,以回答历史上具有相似匹配的问题,(2)通过在检索过程中自动降低相似性阈值来解决没有任何紧密先前匹配的新问题,从而增加找到部分相关上下文的机会并提高对未见过案例的覆盖率。我们发现,实现将假设文档嵌入 (HyDE) 与完整答案上下文相结合的 RAG 管道在检索和回答 Stack Overflow 问题的类似内容方面效果最佳。最后,我们将最佳 RAG 管道应用于 4 个开源 LLM,并将结果与它们的零样本性能进行比较。我们的研究结果表明,具有最佳 RAG 管道的 RAG 在各个模型中始终优于零样本基线,以 LLM 作为法官,在有用性、正确性和细节方面获得了更高的分数。这些发现表明,我们的最佳 RAG 管道可以显着提高各种开发人员查询的答案质量,包括不同 LLM 中以前见过的问题和新问题 ...
使大型语言模型 (LLM) 能够有效地利用多轮交互中的工具对于构建有能力的自主代理至关重要。然而,获取多样化且真实的多回转刀具使用数据仍然是一个重大挑战。在这项工作中,我们提出了一种新颖的基于文本的范例。我们观察到,文本语料库自然包含丰富的、多步骤的问题解决经验,可以作为多轮工具使用任务的未开发的、可扩展的、真实的数据源。基于这一见解,我们引入了 GEM,这是一种数据合成管道,可以通过四个阶段的过程从文本语料库中生成和提取多轮工具使用轨迹:相关性过滤、工作流和工具提取、轨迹基础和复杂性细化。为了降低计算成本,我们通过监督微调进一步训练专门的轨迹合成器。该模型将复杂的生成管道提炼为高效的端到端轨迹生成器。实验表明,我们的 GEM-32B 比 BFCL V3 多圈基准提高了 16.5%。我们的模型部分超过了在 {\tau} - 基准(航空公司和零售)域内数据上训练的模型的性能,突出了我们基于文本的合成范式所产生的卓越泛化能力。值得注意的是,我们的轨迹合成器与整个管道的质量相匹配,同时显着降低了推理延迟和成本 ...
统一生成模型旨在在单一架构和解码范例中处理跨模式的不同任务,例如文本生成、图像生成和视觉语言推理。自回归统一模型由于顺序解码而推理缓慢,非自回归统一模型由于预训练主干网有限而泛化能力较弱。我们引入了 Muddit,这是一种统一的离散扩散转换器,可以跨文本和图像模式快速并行生成。与之前从头开始训练的统一扩散模型不同,Muddit 将来自预训练的文本到图像主干的强大视觉先验与轻量级文本解码器集成在一起,从而在统一架构下实现灵活且高质量的多模态生成。实证结果表明,与明显更大的自回归模型相比,Muddit 在质量和效率方面都实现了竞争或优越的性能。这项工作强调了纯粹离散扩散的潜力,当配备强大的视觉先验时,作为统一生成的可扩展且有效的支柱 ...
随着大型语言模型 (LLM) 的进步,研究人员正在创建新系统,可以对大型非结构化数据集执行人工智能驱动的分析。最近的工作探索了使用语义运算符执行此类分析查询,语义运算符是一组具有自然语言规范的、由人工智能驱动的数据转换的声明性集合。然而,即使经过优化,这些运算符在数百万条记录上执行的成本也可能很高,而且它们的迭代器执行语义使它们不适合交互式数据分析任务。在另一项工作中,深度研究系统已经展示了在大型数据集上回答自然语言问题的能力。这些系统使用一个或多个 LLM 代理来规划其执行、处理数据集并迭代地完善其答案。但是,这些系统没有显式优化其查询计划,这可能会导致计划执行不佳。为了让人工智能驱动的分析发挥作用,我们需要一个运行时,它将语义运算符的优化执行与深度研究系统的灵活性和更动态的执行相结合。作为实现这一愿景的第一步,我们构建了一个原型,使深度研究代理能够编写和执行优化的语义运算符程序。我们评估我们的原型并证明它可以超越手工制作的语义运算符程序,并在两个基本查询上打开深度研究系统。与标准开放深度研究代理相比,我们的原型的 F1 分数提高了 1.95 倍。此外,即使我们让代理访问语义运算符作为工具,由于其优化的执行,我们的原型仍然可以节省高达 76.8% 和 72.7% 的成本和运行时间 ...
对话式推荐系统让用户参与对话,以完善他们的需求并提供更个性化的建议。尽管文本信息足以满足许多领域的需求,但视觉驱动的类别(例如时尚或家居装饰)可能需要与颜色、风格或设计相关的详细视觉信息。为了应对这一挑战,我们提出了 LaViC(大视觉语言对话推荐框架),这是一种将紧凑图像表示集成到基于对话的推荐系统中的新颖方法。 LaViC 在两个阶段的过程中利用大型视觉语言模型:(1)视觉知识自蒸馏,以自蒸馏的方式将数百个标记中的产品图像压缩为一小组视觉标记,显着减少计算开销;(2)推荐提示调整,使模型能够合并对话上下文和蒸馏的视觉标记,为捕获文本和视觉特征提供统一的机制。为了支持对视觉感知对话推荐的严格评估,我们通过将 Reddit 对话与跨多个视觉导向类别(例如时尚、美容和家居)的亚马逊产品列表进行调整来构建新的数据集。该数据集涵盖了视觉细节至关重要的领域中的真实用户查询和产品外观。大量实验表明,LaViC 的性能显着优于纯文本会话推荐方法和开源视觉语言基线。此外,与著名的专有基线(例如 GPT-3.5-turbo、GPT-4o-mini 和 GPT-4o)相比,LaViC 实现了具有竞争力或更高的准确性,这证明了明确使用视觉数据来捕获产品属性并显示我们的视觉语言集成的有效性的必要性。我们的代码和数据集可在此 https URL 获取 ...