文档重建构成了文档分析和识别的一个重要方面,这一领域已逐渐引起学术界的兴趣。许多研究人员采用一系列文档理解模型来生成对不同子任务的预测,然后通过启发式原理将其结果整合到整体文档重建格式中。然而,这些多阶段方法受到错误传播现象的阻碍,导致性能不佳。此外,当代研究利用生成模型在端到端过程中提取纯文本、表格和数学表达式的逻辑序列。然而,这种方法在保留与元素布局相关的信息方面存在缺陷,而元素布局对于文档重建至关重要。为了克服上述限制,我们在本文中提出了一种专门为文档重建而设计的创新自回归模型,称为通过端到端自回归模型进行文档重建(DREAM)。 DREAM 通过全面的端到端过程将文本图像转换为一系列文档重构,封装了更广泛的文档元素信息。此外,我们建立了文档重建任务的标准化定义,并引入了一种新颖的文档相似度度量(DSM)和DocRec1K数据集来评估任务的性能。实证结果证实我们的方法在文档重建领域取得了无与伦比的性能。此外,各种子任务的结果,包括文档布局分析、文本识别、表格结构识别、公式识别和阅读顺序检测,表明我们的模型具有竞争力并且与各种任务兼容 ...
从整体语言模型到模块化、配备技能的代理的转变标志着大型语言模型 (LLM) 在实践中的部署方式发生了决定性的转变。代理技能(代理按需加载的指令、代码和资源的可组合包)不是将所有程序知识编码在模型权重中,而是无需重新训练即可实现动态能力扩展。它以渐进公开、可移植技能定义以及与模型上下文协议 (MCP) 集成的范例形式化。这项调查对座席技能状况进行了全面的分析,因为它在过去几个月中迅速发展。我们沿着四个轴组织该领域:(i) 架构基础,检查 SKILL$.$md 规范、渐进式上下文加载以及技能和 MCP 的互补作用; (ii) 技能获取,涵盖技能库强化学习、自主技能发现(SEAgent)和作曲技能合成; (iii) 大规模部署,包括计算机使用代理 (CUA) 堆栈、GUI 基础进展以及 OSWorld 和 SWE-bench 上的基准测试进展; (iv) 安全性,最近的实证分析表明,26.1% 的社区贡献的技能存在漏洞,这促使我们提出了技能信任和生命周期治理框架——一个基于门的四层权限模型,将技能来源映射到分级部署能力。我们确定了七个开放挑战——从跨平台技能可移植性到基于能力的许可模型——并提出了一个研究议程,以实现值得信赖、自我改进的技能生态系统。与之前广泛涵盖 LLM 代理或工具使用的调查不同,这项工作特别关注新兴的技能抽象层及其对下一代代理系统的影响。项目存储库:此 https URL ...
随着大型语言模型的快速发展,生成推荐正在逐渐重塑推荐系统的范式。然而,大多数现有方法仍然局限于交互驱动的下一项预测范式,无法快速适应不断变化的趋势或解决现实场景中的多样化推荐任务以及特定于业务的需求。为此,我们在 AliExpress 上推出了 SIGMA,一种基于语义的指令驱动的生成多任务推荐器。具体来说,我们首先通过捕获语义和协作关系的统一潜在空间将项目实体置于一般语义中。在此基础上,我们开发了一种混合项目标记化方法,用于精确建模和高效生成。此外,我们构建了一个大规模的多任务SFT数据集,使SIGMA能够通过指令跟踪来满足各种推荐需求。最后,我们设计了一个与自适应概率融合机制集成的三步项目生成程序,以根据特定于任务的推荐准确性和多样性要求来校准输出分布。大量的离线实验和在线A/B测试证明了SIGMA的有效性 ...
最近的神经组合优化(NCO)方法已经显示出有前途的解决问题的能力,而不需要特定领域的专业知识。现有的NCO方法大多使用具有固定约束值的训练和测试数据,缺乏约束紧度对NCO方法性能影响的研究。本文以容量约束车辆路径问题(CVRP)为例,实证分析不同容量约束紧度下的NCO性能。我们的分析表明,现有的 NCO 方法过度拟合容量约束,并且只能在小范围的约束值上表现令人满意,而在其他值上则表现不佳。为了解决现有 NCO 方法的这一缺点,我们开发了一种有效的训练方案,该方案明确考虑不同程度的约束紧密度,并提出一个多专家模块来学习通用的适应性解决策略。实验结果表明,该方法可以有效克服过拟合问题,在不同约束紧度的CVRP和带时间窗的CVRP(CVRPTW)上表现出优越的性能 ...
视觉-语言-动作(VLA)模型可以实现广泛的开放世界泛化,但需要大量且多样化的数据集。值得考虑的是,其中一些数据是否可以来自人类视频,这些视频涵盖了不同的现实世界情况并且很容易获得。然而,仅用人类视频来训练 VLA 是很困难的,并且建立人类和机器人之间的映射需要手动工程,并且提出了重大的研究挑战。从大型语言模型的进步中汲取灵感,从不同的监督中学习的能力随着规模的增加而出现,我们询问类似的现象是否也适用于包含人类视频数据的 VLA。我们引入了一个简单的协同训练方法,并发现一旦 VLA 在足够的场景、任务和实施例上进行了预训练,人机交互就会出现。我们的分析表明,这种新兴能力的出现是因为不同的预训练为人类和机器人数据产生了与实施例无关的表示。我们通过一系列探索人机技能转移的实验验证了这些发现,并发现通过足够多样化的机器人预训练,我们的方法可以将仅在人类数据中看到的泛化设置的性能提高近一倍 ...
尽管视觉语言动作 (VLA) 取得了重大进展,但在涉及实时不可预测交互的高度复杂和动态环境中(例如 3D 开放世界和大型 PvP 游戏),现有方法在从冗余传感器流中提取关键动作信号方面仍然效率低下。为了解决这个问题,我们引入了 MAIN-VLA,这是一个框架,它明确地对意图和环境的抽象进行建模,以深层语义对齐而不是表面模式匹配的方式进行决策。具体来说,我们的意图抽象(IA)将详细的语言指令及其相关推理提取为紧凑、明确的语义原语,而环境语义抽象(ESA)将压倒性的视觉流投射到结构化的拓扑可供性表示中。此外,对齐这两种抽象模式会产生一种新的注意力集中效应,从而实现一种无参数的标记修剪策略,可以过滤掉感知冗余而不降低性能。在开放世界 Minecraft 和大型 PvP 环境(《和平精英》和《Valorant》)中进行的大量实验表明,MAIN-VLA 树立了新的最先进水平,实现了卓越的决策质量、更强的泛化性和尖端的推理效率 ...
在深度学习和图神经网络的影响下,推荐系统取得了显着的进步,特别是在捕获复杂的用户-项目关系方面。然而,这些基于图的推荐器严重依赖基于 ID 的数据,可能会忽略与用户和项目相关的有价值的文本信息,从而导致学习到的表示信息较少。此外,隐式反馈数据的使用引入了潜在的噪声和偏差,对用户偏好学习的有效性提出了挑战。虽然将大语言模型 (LLM) 集成到传统的基于 ID 的推荐系统中已经引起了人们的关注,但为了在实际的推荐系统中有效实施,需要解决诸如可扩展性问题、纯文本依赖的限制以及提示输入约束等挑战。为了应对这些挑战,我们提出了一个与模型无关的框架 RLMRec,旨在通过 LLM 授权的表示学习来增强现有的推荐系统。它提出了一种推荐范式,将表示学习与 LLM 相结合,以捕获用户行为和偏好的复杂语义方面。 RLMRec 结合了辅助文本信号,开发了由 LLM 授权的用户/项目分析范例,并通过跨视图对齐框架将 LLM 的语义空间与协作关系信号的表示空间对齐。这项工作进一步建立了理论基础,证明通过互信息最大化合并文本信号可以提高表示的质量。在我们的评估中,我们将 RLMRec 与最先进的推荐模型相结合,同时还分析了其效率和对噪声数据的鲁棒性。我们的实现代码可在此 https URL 中找到 ...
典型的深度学习方法需要通过将误差信号从输出到每个可学习参数的误差信号来计算每一层的梯度项。考虑到神经网络的堆叠结构,每个层都在下面的图层的表示上构建,因此该方法导致层次表示。模型顶层的更多抽象功能现场直播,而下层的特征则预计会不那么抽象 ...
3D 占用预测对于以视觉为中心的自动驾驶中的全面场景理解至关重要。最近的进展已经探索利用 3D 语义高斯模型来建模占用率,同时减少计算开销,但它们仍然受到多视图空间交互不足和有限的多帧时间一致性的限制。为了克服这些问题,在本文中,我们提出了一种新颖的时空高斯分布(ST-GS)框架,以增强现有基于高斯的管道中的空间和时间建模 ...
在实际的LLM应用中,用户反复表达稳定的偏好和要求,例如减少幻觉、遵循机构写作惯例或避免过于技术性的措辞,但这种交互体验很少被整合为可重用的知识。因此,LLM 代理通常无法跨会话积累个性化能力。我们提出了 AutoSkill,一个经验驱动的终身学习框架,使 LLM 代理能够从对话和交互跟踪中自动派生、维护和重用技能。 AutoSkill 从用户体验中抽象技能,支持其持续自我进化,并动态地将相关技能注入到未来的请求中,而无需重新训练底层模型。它被设计为与模型无关的插件层,与现有的 LLM 兼容,并引入了标准化的技能表示,以便在代理、用户和任务之间共享和传输。通过这种方式,AutoSkill 将短暂的交互体验转变为明确的、可重用的和可组合的功能。本文描述了 AutoSkill 的动机、架构、技能生命周期和实现,并将其与先前有关记忆、检索、个性化和代理系统的工作进行了定位。 AutoSkill 强调了一条通往终身个性化代理和个人数字代理人的实用且可扩展的道路 ...