我们提出了OVIS2.5,这是OVIS2的继任者,专为天然分辨率的视觉感知和强大的多模式推理而设计。 OVIS2 ...

0 0 0 0 2025/08/19 arXiv:2508.11737v1 JCHEN

电子商务越来越多地富含多媒体,其产品以图像,简短视频或实时流促销方式广泛展示。统一和矢量化的跨域生产表示至关重要。由于较大的产物内方差和在宽域情景中的高产间相似性,仅视觉表示不足 ...

0 1 0 0 2025/08/19 arXiv:2408.02978v2 JCHEN

在本文中,我们提出了一个多任务深度神经网络(MT-DNN),用于跨多种自然语言理解(NLU)任务的学习表示。 MT-DNN不仅利用大量的交叉任务数据,而且还受益于正规化效应,该效应会导致更一般的表示形式,以适应新的任务和域。 MT-DNN扩展了在刘等人中提出的模型 ...

0 0 0 0 2025/04/25 arXiv:1901.11504v2 JCHEN

我们描述了KVLink,这是一种在大语言模型(LLMS)中重复使用高效键值(KV)的方法。在许多LLM应用程序中,不同的输入可以共享重叠的上下文,例如在多个查询中出现的同一检索的文档。但是,LLMS仍然需要为每个查询编码整个上下文,从而导致冗余计算 ...

0 0 0 0 2025/03/04 arXiv:2502.16002v1 JCHEN