多模态大型语言模型 (MLLM) 在执行各种单图像任务的指令方面表现出了卓越的能力。 Despite this progress, significant challenges remain in modeling long image sequences.在这项工作中,我们介绍了多功能的多模态大语言模型 mPLUG-Owl3,它增强了在包含检索的图像文本知识、交错的图像文本和长视频的场景中长图像序列理解的能力。具体来说,我们提出了新颖的超级注意力模块,可以有效地将视觉和语言集成到公共语言引导的语义空间中,从而促进扩展的多图像场景的处理。大量实验结果表明,mPLUG-Owl3 在单图像、多图像和视频基准测试中,在具有相似尺寸的模型中实现了最先进的性能。此外,我们提出了一种名为“干扰阻力”的具有挑战性的长视觉序列评估,以评估模型在干扰中保持注意力的能力。 Finally, with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to the development of more efficient and powerful multimodal large language models. ...

0 0 0 0 2026/03/27 arXiv:2408.04840v2 15851853072

产品属性值识别(PAVI)涉及从产品配置文件中识别属性值,这是改进电子商务平台上的产品搜索、推荐和业务分析的关键任务。然而,现有的 PAVI 方法面临着严峻的挑战,例如推断隐式值、处理分布外 (OOD) 值以及生成标准化输出。为了解决这些限制,我们引入了分类感知对比学习检索(TACLR),这是第一个基于检索的 PAVI 方法。 TACLR 通过将产品配置文件和候选值编码到嵌入中并根据它们的相似性检索值,将 PAVI 制定为信息检索任务。它利用对比训练和分类感知硬负采样,并采用动态阈值的自适应推理。 TACLR 具有三个关键优势:(1) 它可以有效处理隐式值和 OOD 值,同时生成标准化输出; (2)它可以扩展到数千个类别、数万个属性和数百万个值; (3)支持高负载工业部署的高效推理。在专有和公共数据集上进行的大量实验验证了 TACLR 的有效性和效率。此外,它已成功部署在现实世界的电子商务平台闲鱼上,每天处理数百万个产品列表,并具有频繁更新的大规模属性分类法。我们在此 https URL 发布代码以促进可重复性和未来的研究 ...

0 0 0 0 2026/03/27 arXiv:2501.03835v4 15851853072

高质量的表征是有效推荐的核心要求。在这项工作中,我们研究了基于 LLM 的描述符生成问题,即对下游应用程序限制最小的类似关键词的自然语言项目表示生成框架。我们提出了 AgenticTagger,这是一个查询 LLM 以使用文本描述符序列表示项目的框架。然而,开放式生成对生成空间几乎没有控制,导致基数高、性能低的描述符,这给下游建模带来了挑战。为此,AgenticTagger 具有两个核心阶段:(1) 词汇构建阶段,其中识别一组分层、低基数和高质量的描述符;(2) 词汇分配阶段, LLM 将词汇内描述符分配给项目。为了有效且高效地在感兴趣的项目语料库中基础词汇,我们设计了一种多代理反射机制,其中架构师 LLM 在来自注释器 LLM 的并行反馈的指导下迭代地细化词汇,该注释器 LLM 根据项目数据验证词汇。对公共和私人数据的实验表明,AgenticTagger 在不同的推荐场景中带来了一致的改进,包括生成式和基于术语的检索、排名以及面向可控性、基于评论的推荐 ...

0 0 0 0 2026/02/09 arXiv:2602.05945v1 15851853072

大型语言模型 (LLM) 和代理技术给数据分析任务(又名 LLM/代理数据分析师)的功能和开发范式带来了根本性转变,对学术界和工业界产生了重大影响 ...

0 0 0 0 2025/10/28 arXiv:2509.23988v3 15851853072