在企业搜索中,由于获取标记数据的困难,大规模构建高质量数据集仍然是一个核心挑战。为了解决这一挑战,我们提出了一种有效的方法来微调小语言模型(SLM)以实现准确的相关性标记,从而实现高吞吐量、特定领域的标记,其质量可与最先进的大语言模型(LLM)相当甚至更好。为了克服企业领域缺乏高质量且可访问的数据集的问题,我们的方法利用合成数据生成。具体来说,我们采用 LLM 从种子文档中合成现实的企业查询,应用 BM25 检索硬负例,并使用教师 LLM 分配相关性分数。然后将生成的数据集提炼到 SLM 中,生成紧凑的相关性标记器。我们在由经过训练的人类注释者注释的 923 个企业查询文档对组成的高质量基准上评估了我们的方法,并表明经过提炼的 SLM 与人类判断达到了一致,与教师 LLM 相当或更好。此外,我们经过微调的贴标机大幅提高了吞吐量,实现了 17 倍的增长,同时成本效益也提高了 19 倍。这种方法可以为企业级检索应用程序提供可扩展且经济高效的相关性标签,支持现实环境中的快速离线评估和迭代 ...

0 0 0 0 2026/01/09 arXiv:2601.03211v1 重庆伍冰剑

我们能否从数据中学到比生成过程本身更多的知识?仅通过对现有数据应用确定性转换就可以构建新的有用信息吗?是否可以在不考虑下游任务的情况下评估数据中的可学习内容?在这些问题上,香农信息和柯尔莫哥洛夫复杂性几乎空手而归,部分原因是它们假设观察者具有无限的计算能力,并且未能瞄准有用的信息内容。在这项工作中,我们识别并举例说明了信息论中的三个看似悖论:(1)信息不能通过确定性变换来增加; (2)信息独立于数据的顺序; (3)似然建模仅仅是分布匹配。为了阐明这些结果与现代实践之间的紧张关系,并量化数据的价值,我们引入了复杂性,一种信息的形式化,捕获计算有限的观察者可以从数据中学到的东西。 Epiplexity 捕获数据中的结构内容,同时排除时间限制熵,即伪随机数生成器和混沌动力系统所示例的随机不可预测内容。通过这些概念,我们演示了如何通过计算创建信息,信息如何依赖于数据的排序,以及似然建模如何生成比数据生成过程本身更复杂的程序。我们还提出了估计复杂性的实用程序,我们展示了捕获跨数据源的差异,跟踪下游性能,并突出显示可改善分布外泛化的数据集干预措施。与模型选择的原则相反,复杂性为数据选择提供了理论基础,指导如何为学习系统选择、生成或转换数据 ...

0 0 1 59 2026/01/09 arXiv:2601.03220v1 hwrabbit

注意力机制代表了神经网络架构中的基本范式转变,使模型能够通过学习的权重函数选择性地关注输入序列的相关部分。本专着对注意力机制进行了全面而严格的数学处理,包括其理论基础、计算特性以及当代深度学习系统中的实际实现。自然语言处理、计算机视觉和多模态学习中的应用证明了注意力机制的多功能性。 We examine language modeling with autoregressive transformers, bidirectional encoders for representation learning, sequence-to-sequence translation, Vision Transformers for image classification, and cross-modal attention for vision-language tasks.实证分析揭示了训练特征、将性能与模型大小和计算相关的缩放法则、注意力模式可视化以及标准数据集的性能基准。我们讨论习得注意力模式的可解释性及其与语言和视觉结构的关系。该专着最后对当前的局限性进行了严格的审查,包括计算可扩展性、数据效率、系统泛化和可解释性挑战 ...

0 0 0 0 2026/01/09 arXiv:2601.03329v1 daoxian

我们推出 Yuan3.0 Flash,这是一种开源专家混合 (MoE) 多模态大型语言模型,具有 3.7B 激活参数和 40B 总参数,专门用于增强面向企业的任务的性能,同时保持通用任务的竞争能力。 To address the overthinking phenomenon commonly observed in Large Reasoning Models (LRMs), we propose Reflection-aware Adaptive Policy Optimization (RAPO), a novel RL training algorithm that effectively regulates overthinking behaviors.在检索增强生成(RAG)、复杂表理解和摘要等面向企业的任务中,Yuan3.0 Flash始终取得卓越的性能。此外,它还在数学、科学等领域展现出强大的推理能力,仅需要平均 Token 的约1/4至1/2,就能达到与前沿模型相当的精度。 Yuan3.0 Flash 已完全开源,以方便进一步研究和实际部署:此 https URL ...

0 0 0 0 2026/01/09 arXiv:2601.01718v1 whxb69

尽管多模态数据在提高模型准确性方面的潜力已得到公认,但许多大型工业推荐系统(包括淘宝展示广告系统)主要依赖于模型中的稀疏 ID 特征。在这项工作中,我们探索利用多模态数据来提高推荐准确性的方法。我们首先确定以对工业系统有效且具有成本效益的方式采用多模式数据的关键挑战。为了应对这些挑战,我们引入了一个两阶段框架,包括:1)多模态表示的预训练以捕获语义相似性,2)将这些表示与现有的基于 ID 的模型集成。此外,我们详细介绍了生产系统的架构,该架构旨在促进多模式表示的部署。自 2023 年中集成多模态表示以来,我们观察到淘宝展示广告系统的性能显着提升。我们相信,我们收集的见解将为寻求在系统中利用多模式数据的从业者提供宝贵的资源 ...

0 0 0 0 2026/01/09 arXiv:2407.19467v1 llsun

为了使复杂的强化学习 (RL) 系统能够与现实世界环境进行有效交互,我们需要向这些系统传达复杂的目标。在这项工作中,我们探索根据(非专家)人类偏好在轨迹段对之间定义的目标。 We show that this approach can effectively solve complex RL tasks without access to the reward function, including Atari games and simulated robot locomotion, while providing feedback on less than one percent of our agent's interactions with the environment.这大大降低了人类监督的成本,以至于可以实际应用于最先进的强化学习系统。为了证明我们方法的灵活性,我们证明我们可以用大约一个小时的人类时间成功训练复杂的新颖行为。这些行为和环境比以前从人类反馈中了解到的任何行为和环境都要复杂得多 ...

0 0 0 0 2026/01/09 arXiv:1706.03741v4 robo_bin

虽然情感分析系统试图根据输入文本中的关键意见表达来确定给定目标的情感极性,但在隐式情感分析 (ISA) 中,意见线索以隐式且模糊的方式出现。因此,检测隐含情绪需要常识和多跳推理能力来推断观点的潜在意图。受最近的思想链 (CoT) 想法的启发,在这项工作中,我们引入了三跳推理 (THOR) CoT 框架来模仿 ISA 的类人推理过程。我们为THOR设计了一个三步提示原则,逐步诱导隐含方面、意见,最后诱导情感极性。我们的 THOR+Flan-T5 (11B) 在监督设置上将最先进的 (SoTA) F1 提高了 6% 以上。更引人注目的是,THOR+GPT3 (175B) 在零样本设置下将 SoTA 提升了 50% 以上的 F1。我们的代码在此 https URL 上打开 ...

0 0 0 0 2026/01/09 arXiv:2305.11255v4 Aurora111

交通预测已成为智慧城市发展的重要研究领域。尽管已经开发了各种具有复杂架构的神经网络来解决这个问题,但它们仍然面临两个关键挑战:i)用于建模时空相关性的网络设计的最新进展开始看到性能增强的回报递减。 ii)此外,大多数模型没有考虑交通数据固有的时空异质性,即不同地区的交通分布差异很大,并且交通流模式在不同的时段波动。为了应对这些挑战,我们引入了时空图转换器(STGormer),它有效地集成了流量数据中固有的属性和结构信息,用于学习时空相关性,以及用于捕获沿空间和时间轴的异质性的专家混合模块。具体来说,我们基于图结构设计了两种简单而有效的空间编码方法,并将时间位置编码集成到普通 Transformer 中以捕获时空流量模式。此外,专家混合增强前馈神经网络(FNN)模块通过时空门网络自适应地将合适的专家层分配给不同的模式,进一步提高整体预测精度。对现实世界流量数据集的实验表明 STGormer 实现了最先进的性能 ...

0 0 0 0 2026/01/09 arXiv:2408.10822v2 13766783701

检索增强生成(RAG)在通过外部知识集成增强大型语言模型(LLM)方面取得了显着的成功,但其应用主要集中在文本内容上,而多模态视频知识的丰富领域主要尚未开发。本文介绍了 VideoRAG,这是第一个专门用于处理和理解超长上下文视频的检索增强生成框架。我们的核心创新在于其双通道架构,它无缝集成了(i)用于捕获跨视频语义关系的基于图的文本知识基础,以及(ii)用于有效保留视觉特征的多模态上下文编码。这种新颖的设计使 VideoRAG 能够通过构建跨越多个视频的精确知识图来处理无限长度的视频,同时通过专门的多模态检索范例保持语义依赖性。通过对我们提出的 LongerVideos 基准(包括 160 多个视频,总计 134 多个小时,涵盖讲座、纪录片和娱乐类别)进行全面的实证评估,VideoRAG 与现有的 RAG 替代方案和长视频理解方法相比,表现出了显着的性能。 VideoRAG 实现的源代码和基准数据集可在以下网址公开获取:此 https URL ...

0 0 0 0 2026/01/09 arXiv:2502.01549v1 ReLU

机器人感知需要对 3D 几何和语义进行建模。现有方法通常侧重于估计 3D 边界框,忽略更精细的几何细节,并且难以处理一般的、词汇外的对象。 3D 占用预测可估计场景的详细占用状态和语义,是克服这些限制的一项新兴任务。为了支持 3D 占用预测,我们开发了一个标签生成管道,可以为任何给定场景生成密集的、可见性感知的标签。该流程包括三个阶段:体素致密化、遮挡推理和图像引导体素细化。我们建立了两个源自 Waymo 开放数据集和 nuScenes 数据集的基准,即 Occ3D-Waymo 和 Occ3D-nuScenes 基准。此外,我们还使用各种基线模型对所提出的数据集进行了广泛的分析。最后,我们提出了一种新模型,称为 Coarse-to-Fine Occupancy (CTF-Occ) 网络,它在 Occ3D 基准测试中展示了卓越的性能。代码、数据和基准测试在此 https URL 上发布 ...

0 0 0 0 2026/01/09 arXiv:2304.14365v3 mk123