遥感图像更改字幕(RSICC)旨在描述语言中多阶段遥感图像之间的表面变化,包括更改对象的对象类别,位置和变化对象的动态(例如,添加或消失) ...
0 1 47 2025/05/16 arXiv:2404.18895v3 momo_curtain
我们介绍了Ming-Lite-Uni,这是一个开源的多模式框架,该框架具有新设计的统一视觉生成器和一款适合统一视觉和语言的本机多模式自动回归模型。具体而言,该项目提供了集成的元震源和M2-OMNI框架的开源实现,同时介绍了新颖的多尺度可学习 Token 和多尺度表示策略。通过利用固定的MLLM和可学习的扩散模型,Ming-Lite-Uni使本机多模式AR模型可以同时执行基于文本图像生成和基于教学的 ...
0 0 0 2025/05/16 arXiv:2505.02471v2 X.K
组成的图像检索(CIR)使用多模式查询将目标图像与参考图像与描述所需修改的文本结合在一起。主要的挑战是有效地融合了此视觉和文本信息。 CIR的当前跨模式特征融合方法表现出意图解释的固有偏见 ...
0 0 0 2025/05/16 arXiv:2504.10995v1 Archer
由注意力机制驱动的 Transformer 构成了大型语言模型 (LLM) 的基础。随着这些模型规模的扩大,高效的 GPU 注意力内核对于高吞吐量和低延迟推理变得至关重要。多样化的 LLM 应用需要灵活且高性能的注意力解决方案 ...
0 0 0 2025/05/16 arXiv:2501.01005v2 hwrabbit
在本文中,我们介绍了 DINO-X,它是 IDEA Research 开发的统一的以对象为中心的视觉模型,具有迄今为止最好的开放世界对象检测性能。 DINO-X 采用与 Grounding DINO 1.5 相同的基于 Transformer 的编码器-解码器架构,以追求开放世界对象理解的对象级表示 ...
0 0 0 2025/05/16 arXiv:2411.14347v3 ppbc
在云系统上托管数据库服务已成为一种常见实践。这导致了数据库工作量的增加,这为模式分析提供了机会。从业务逻辑的角度发现工作量模式非常有利于更好地理解数据库系统的趋势和特征 ...
0 0 0 2025/05/16 arXiv:2307.02626v1 ifzz
尽管BERT是一种学习单语句子嵌入语义相似性和基于嵌入的转移学习的有效方法(Reimers和Gurevych,2019年),但基于BERT的跨语言句子嵌入尚未探索。 We systematically investigate methods for learning multilingual sentence embeddings by combining the best methods for ...
0 0 0 2025/05/16 arXiv:2007.01852v2 snowpigppp
个性化建议在Web应用程序中广泛使用,图形对比学习(GCL)逐渐成为推荐系统中的主要方法,这主要是由于它能够从原始交互数据中提取自我监督信号,从而有效地减轻了数据稀疏性问题。一种经典的基于GCL的方法通常在图形卷积期间使用数据增强来产生更多的对比视图,并在这些新视图上进行对比,以获得丰富的自我监督信号。尽管这种范式是有效的,但性能增长背后的原因仍然是一个谜 ...
0 0 0 2025/05/16 arXiv:2504.10113v1 dzyhrm

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)