通用多模态检索 (UMR) 旨在使用统一模型实现跨各种模态的搜索,其中查询和候选可以由纯文本、图像或两者的组合组成。先前的工作尝试采用多模态大语言模型(MLLM)仅使用文本数据来实现 UMR。然而,我们的初步实验表明,更多样化的多模态训练数据可以进一步释放 MLLM 的潜力 ...
0 0 0 2025/04/21 arXiv:2412.16855v2 zxykbz
当两个AI模型接受相同的科学任务培训时,他们是否学到相同的理论或两种不同的理论?在整个科学史上,我们都目睹了由实验验证或伪造驱动的理论的兴衰:当缺乏实验数据时,许多理论可能共存,但是幸存的理论空间随着更多的实验数据的可用而更加限制。对于人工智能科学家来说,我们展示了同样的故事。随着培训数据中越来越多的系统提供的系统,AI科学家倾向于融合他们所学的理论,尽管有时它们会形成与不同理论相对应的不同群体  ...
0 0 0 2025/04/21 arXiv:2504.02822v1 leec
无人机对象检测(UAV-OD)已在各种情况下广泛使用。但是,大多数现有的无人机算法都依赖于手动设计的组件,这些组件需要大量调整。不依赖此类手动设计组件的端到端模型主要是为自然图像设计的,对于无人机图像而言效果较差 ...
0 0 0 2025/04/21 arXiv:2501.01855v2 per
扩散模型能够生成以文本描述为条件的令人印象深刻的图像,并且这些模型的扩展使用户可以以相对粗糙的比例编辑图像。但是,精确编辑具有扩散模型图像中对象的布局,位置,姿势和形状的能力仍然很困难。为此,我们提出了运动指导,这是一种零击技术,允许用户指定图像中每个像素应移动的密集,复杂的运动场 ...
0 0 0 2025/04/21 arXiv:2401.18085v1 orangelcx
“预训练$ \ rightarrow $ downstream改编”为持续学习带来了新的机会和挑战(CL)。尽管CL中最近的最新技术是通过参数效率调整(PET)适应范式实现的,但仅探索了提示,仅限制了其应用于 Transformer 。在本文中,我们将促使PET的一个实例化定位,并用一般PET提出一个统一的CL框架,被称为学习蓄能 - 征服 - 综合(LAE) ...
0 0 0 2025/04/21 arXiv:2303.10070v2 19396386025
基于嵌入的检索是工业推荐系统匹配的候选项目的主要方法。随着生成AI的成功,生成的检索最近成为了推荐的新检索范式,该范式将项目检索视为一代问题。它的模型由两个阶段组成:语义 Token 化和自回归产生 ...
0 0 0 2025/04/21 arXiv:2404.14774v2 yushun
减轻奖励黑客 - 由于其学习目标中的缺陷或错误的特定问题,AI系统行为不当 - 造成了构建能力和调整模型的关键挑战。我们表明,我们可以通过使用另一个观察该模型的经济链(COT)推理的LLM来监视诸如OpenAI O3-Mini之类的前沿推理模型,以便在代理编码环境中进行奖励黑客入侵。 COT监视可以比单独监测剂的动作和输出更有效,我们进一步发现,比O3-Mini(即GPT-4O)弱的LLM可以有效 ...
0 0 0 2025/04/21 arXiv:2503.11926v1 translater
视频生成的最新进展显示出了生成未来场景的希望,这对于自动驾驶和体现智能的计划和控制至关重要。但是,现实世界的应用要求在视觉上的合理预测中要求更多。他们需要基于明确定义的边界条件的对象运动的推理,例如初始场景图像和部分对象运动。我们称此能力边界条件运动推理 ...
0 0 0 2025/04/21 arXiv:2412.00547v3 orangelcx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)