我们推出 LeVR,这是一个模块化软件框架,旨在弥补机器人模仿学习中的两个关键差距。首先,它提供了强大而直观的虚拟现实(VR)远程操作,使用机械臂和灵巧的手来收集数据,解决了现有系统中的常见限制。其次,它与强大的乐机器人模仿学习(IL)框架原生集成,可以使用基于VR的遥操作数据并简化演示收集过程。为了演示 LeVR,我们发布了 LeFranX,这是 Franka FER 臂和 RobotEra XHand 这两个广泛使用的研究平台的开源实现。 LeFranX 提供从数据收集到实际策略部署的无缝端到端工作流程。我们通过收集 100 个专家演示的公共数据集来验证我们的系统,并使用它成功地调整最先进的视觉运动策略。我们提供开源框架、实现和数据集,以加速机器人社区的 IL 研究 ...

0 0 0 0 2026/01/14 arXiv:2509.14349v1 15904435063

叙事驱动的推荐系统旨在针对以自由格式文本表达的用户请求提供个性化建议,例如“我想看一部故事令人费解的惊悚片,比如《禁闭岛》”。尽管大型语言模型(LLM)已被证明在处理一般自然语言查询方面表现出色,但它们处理此类推荐请求的有效性仍然相对未经探索。为了缩小这一差距,我们比较了 38 个不同规模的开源和闭源 LLM(例如 LLama 3.2 和 GPT-4o)在电影推荐设置中的性能。为此,我们利用了来自 Reddit 电影建议社区的黄金标准、众包注释的帖子数据集,并采用了各种提示策略,包括零镜头提示、身份提示和少镜头提示。我们的研究结果证明了 LLM 生成上下文相关的电影推荐的能力,显着优于其他最先进的方法,例如 doc2vec。虽然我们发现闭源和大型参数化模型通常表现最好,但中型开源模型仍然具有竞争力,仅比计算成本更高的模型稍稍优于其。此外,我们观察到大多数模型的提示策略没有显着差异,这强调了简单方法的有效性,例如零样本提示对于叙事驱动的推荐。总的来说,这项工作为推荐系统研究人员以及旨在将 LLM 集成到现实世界推荐工具中的从业者提供了宝贵的见解 ...

0 0 0 0 2026/01/14 arXiv:2410.13604v1 榴莲糯米甜甜

随着卷积神经网络的进步,场景文本识别得到了快速发展。尽管如此,以前的大多数方法可能无法很好地识别自然场景图像中常见的低分辨率文本。一个直观的解决方案是引入超分辨率技术作为预处理。然而,文献中传统的超分辨率方法主要侧重于重建自然图像的细节纹理,由于文本的独特特征,这种方法通常不适用于文本。为了解决这些问题,在这项工作中,我们提出了一种内容感知文本超分辨率网络来生成文本识别所需的信息。特别是,我们设计了一个可以同时执行超分辨率和文本识别的端到端网络。与之前的超分辨率方法不同,我们使用文本识别的损失作为文本感知损失来指导超分辨率网络的训练,因此它更关注文本内容,而不是不相关的背景区域。在几个具有挑战性的基准上进行的大量实验证明了我们提出的方法在从小模糊图像中恢复清晰的高分辨率图像方面的有效性,并表明识别性能明显提高了文本识别器的性能。据我们所知,这是第一个专注于文本超分辨率的工作。代码将在此 https URL 中发布 ...

0 0 0 0 2026/01/14 arXiv:1909.07113v4 小丸子

大型语言模型和视觉语言模型的最新进展导致人们对图像字幕的可解释评估指标越来越感兴趣。然而,这些指标生成的解释没有标准化标准,并且生成的解释的整体质量仍未得到验证。在本文中,我们提出了 EXPERT,这是一种无参考评估指标,它基于三个基本标准提供结构化解释:流畅性、相关性和描述性。通过构建高质量结构化解释的大规模数据集,我们开发了一个两阶段评估模板,以有效监督评分和解释生成的视觉语言模型。 EXPERT 在基准数据集上取得了最先进的结果,同时提供了比现有指标质量更高的解释,并通过全面的人工评估进行了验证。我们的代码和数据集可在此 https URL 获取 ...

0 0 0 0 2026/01/14 arXiv:2506.24016v1 15622278494

由于其出色的语言理解和上下文学习能力,人们越来越有兴趣利用大规模语言模型 (LLM) 来推进下一代推荐系统 (RecSys)。在这种情况下,对用户和项目进行标记化(即索引)对于确保 LLM 与推荐的无缝匹配至关重要。虽然一些研究在通过文本内容或潜在表示来表示用户和项目方面取得了进展,但如何有效地将高阶协作知识捕获到与 LLM 兼容的离散标记中仍然存在挑战。此外,大多数现有的标记化方法在有效推广到新的/未见过的用户或不在训练语料库中的项目时常常面临困难。为了应对这些挑战,我们提出了一个名为 TokenRec 的新颖框架,它不仅引入了有效的 ID 标记化策略,还引入了基于 LLM 推荐的高效检索范例。具体来说,我们的标记化策略,掩模矢量量化(MQ)标记化器,涉及将从协作过滤中学习到的掩模用户/项目表示量化为离散标记,从而实现高阶协作知识的平滑结合以及基于LLM的RecSys的用户和项目的可概括标记化。同时,我们的生成检索范式旨在有效地为用户推荐 top-$K$ 项目,从而消除了 LLM 使用的耗时的自回归解码和波束搜索过程,从而显着减少了推理时间。综合实验验证了所提出方法的有效性,证明 TokenRec 优于竞争基准,包括传统推荐系统和新兴的基于 LLM 的推荐系统 ...

0 0 0 0 2026/01/14 arXiv:2406.10450v3 榴莲糯米甜甜

分布匹配蒸馏(DMD)将基于分数的生成模型蒸馏为高效的一步生成器,而不需要与教师的采样轨迹一一对应。然而,有限的模型容量导致一步蒸馏模型在复杂的生成任务上表现不佳,例如在文本到视频生成中合成复杂的对象运动。直接将 DMD 扩展到多步蒸馏会增加内存使用量和计算深度,从而导致不稳定和效率降低。虽然之前的工作提出随机梯度截断作为一种潜在的解决方案,但我们观察到它大大降低了多步蒸馏模型的生成多样性,使其降至单步模型的水平。为了解决这些限制,我们提出了 Phased DMD,这是一种多步骤蒸馏框架,它将分相蒸馏的思想与专家混合 (MoE) 结合起来,降低学习难度,同时增强模型能力。阶段性 DMD 建立在两个关键思想之上:渐进分布匹配和子区间内的分数匹配。首先,我们的模型将 SNR 范围划分为子区间,逐步将模型细化到更高的 SNR 级别,以更好地捕获复杂的分布。接下来,为了确保每个子区间内的训练目标准确,我们进行了严格的数学推导。我们通过提炼最先进的图像和视频生成模型(包括 Qwen-Image(20B 参数)和 Wan2.2(28B 参数))来验证 Phased DMD。实验结果表明,Phased DMD 比 DMD 更好地保留了输出多样性,同时保留了关键的生成能力。我们将发布我们的代码和模型 ...

0 0 0 0 2026/01/14 arXiv:2510.27684v1 xf

扩散模型对于生成高质量图像和视频至关重要。受到 OpenAI Sora 成功的启发,扩散模型的骨干正在从 U-Net 发展到 Transformer,称为扩散 Transformer (DiT)。然而,生成高质量内容需要更长的序列长度,从而呈指数级增加注意力机制所需的计算量,并增加 DiT 推理延迟。并行推理对于实时 DiT 部署至关重要,但由于大规模可扩展性较差,依赖单一并行方法是不切实际的。本文介绍了 xDiT,一种用于 DiT 的综合并行推理引擎。在彻底研究现有的 DiT 并行方法后,xDiT 选择序列并行 (SP) 和 PipeFusion(一种新颖的补丁级管道并行方法)作为图像内并行策略,并选择 CFG 并行作为图像间并行策略。 xDiT 可以以混合方式灵活地组合这些并行方法,提供强大且可扩展的解决方案。通过以太网互连的两个 8xL40 GPU (PCIe) 节点和一个 8xA100 (NVLink) 节点的实验结果展示了 xDiT 在五个最先进的 DiT 上的卓越可扩展性。值得注意的是,我们是第一个在以太网连接的 GPU 集群上展示 DiTs 可扩展性的公司。 xDiT 可通过此 https URL 获取 ...

0 0 0 0 2026/01/14 arXiv:2411.01738v1 xf

随着大型语言模型 (LLM) 承担复杂的任务,它们的输入会得到包含领域知识的较长上下文的补充。然而,使用长上下文是具有挑战性的,因为在 LLM 处理整个上下文之前什么也不能生成。虽然可以通过在不同输入之间重用上下文的 KV 缓存来减少上下文处理延迟,但通过网络获取包含大张量的 KV 缓存可能会导致较高的额外网络延迟。 CacheGen 是 LLM 系统的快速上下文加载模块。首先,CacheGen 使用自定义张量编码器,利用 KV 缓存的分布式属性将 KV 缓存编码为更紧凑的比特流表示形式,解码开销可以忽略不计,以节省带宽使用。其次,CacheGen 会调整 KV 缓存不同部分的压缩级别来应对可用带宽的变化,以保持低上下文加载延迟和高生成质量。 % 当可用带宽下降时,CacheGen 可能会提高部分上下文的压缩级别或动态重新计算其 KV 缓存。我们在流行的 LLM 和数据集上测试 CacheGen。与最近重用 KV 缓存的系统相比,CacheGen 将 KV 缓存大小减少了 3.5-4.3 倍,将获取和处理上下文的总延迟减少了 3.2-3.7 倍,对 LLM 响应质量的影响可以忽略不计。我们的代码位于:此 https URL ...

0 0 0 0 2026/01/14 arXiv:2310.07240v6 Saddss

最近的端到端自动驾驶方法利用视觉语言模型(VLM)来增强复杂驾驶场景中的规划能力。然而,VLM 本质上是作为通才模型进行训练的,缺乏对 3D 空间和时间中特定驾驶推理的专门理解。当应用于自动驾驶时,这些模型很难建立结构化的时空表示,以捕获对安全轨迹规划至关重要的几何关系、场景上下文和运动模式。为了解决这些限制,我们提出了 SGDrive,这是一种新颖的框架,它围绕特定于驾驶的知识层次结构明确构建 VLM 的表示学习。 SGDrive 基于预先训练的 VLM 主干网络,将驾驶理解分解为反映人类驾驶认知的场景-代理-目标层次结构:驾驶员首先感知整体环境(场景上下文),然后关注安全关键代理及其行为,最后在执行操作之前制定短期目标。这种分层分解提供了通用 VLM 所缺乏的结构化时空表示,将多级信息集成为紧凑而全面的格式,用于轨迹规划。 NAVSIM 基准的大量实验表明,SGDrive 在 PDMS 和 EPDMS 上的仅摄像头方法中实现了最先进的性能,验证了分层知识结构对于使通用 VLM 适应自动驾驶的有效性 ...

0 0 0 0 2026/01/14 arXiv:2601.05640v2 布朗瓶

项目到项目(I2I)推荐模型由于其可扩展性、实时性和高推荐质量而广泛应用于现实系统中。增强 I2I 性能的研究主要集中在两个方向:1)以模型为中心的方法,采用更深层次的架构,但可能会增加计算成本和部署复杂性;2)以数据为中心的方法,在不改变模型的情况下细化训练数据,提供成本效益,但会面临数据稀疏和噪声的问题。为了应对这些挑战,我们提出了 LLM-I2I,这是一个以数据为中心的框架,利用大型语言模型 (LLM) 来缓解数据质量问题。 LLM-I2I 包括 (1) 一个基于 LLM 的生成器,用于合成长尾项目的用户-项目交互,从而缓解数据稀疏性;(2) 一个基于 LLM 的鉴别器,用于过滤真实数据和合成数据中的噪声交互。然后融合提炼后的数据来训练 I2I 模型。根据行业 (AEDS) 和学术 (ARD) 数据集进行评估,LLM-I2I 持续提高推荐准确性,特别是对于长尾项目。部署在大型跨境电商平台上,较现有I2I模型,召回数(RN)提升6.02%,商品总价值(GMV)提升1.22%。这项工作凸显了 LLM 在增强以数据为中心的推荐系统而不修改模型架构方面的潜力 ...

0 0 0 0 2026/01/14 arXiv:2512.21595v1 榴莲糯米甜甜