一译 —— 文档和论文翻译、对照阅读、讨论和社区

GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

通用多模态检索 (UMR) 旨在使用统一模型实现跨各种模态的搜索，其中查询和候选可以由纯文本、图像或两者的组合组成。先前的工作尝试采用多模态大语言模型（MLLM）仅使用文本数据来实现 UMR。然而，我们的初步实验表明，更多样化的多模态训练数据可以进一步释放 MLLM 的潜力 ...

0 0 0 2025/04/21 arXiv:2412.16855v2 zxykbz

Do Two AI Scientists Agree?

当两个AI模型接受相同的科学任务培训时，他们是否学到相同的理论或两种不同的理论？在整个科学史上，我们都目睹了由实验验证或伪造驱动的理论的兴衰：当缺乏实验数据时，许多理论可能共存，但是幸存的理论空间随着更多的实验数据的可用而更加限制。对于人工智能科学家来说，我们展示了同样的故事。随着培训数据中越来越多的系统提供的系统，AI科学家倾向于融合他们所学的理论，尽管有时它们会形成与不同理论相对应的不同群体  ...

0 0 0 2025/04/21 arXiv:2504.02822v1 leec

UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery

无人机对象检测（UAV-OD）已在各种情况下广泛使用。但是，大多数现有的无人机算法都依赖于手动设计的组件，这些组件需要大量调整。不依赖此类手动设计组件的端到端模型主要是为自然图像设计的，对于无人机图像而言效果较差 ...

0 0 0 2025/04/21 arXiv:2501.01855v2 per

Motion Guidance: Diffusion-Based Image Editing with Differentiable Motion Estimators

扩散模型能够生成以文本描述为条件的令人印象深刻的图像，并且这些模型的扩展使用户可以以相对粗糙的比例编辑图像。但是，精确编辑具有扩散模型图像中对象的布局，位置，姿势和形状的能力仍然很困难。为此，我们提出了运动指导，这是一种零击技术，允许用户指定图像中每个像素应移动的密集，复杂的运动场 ...

0 0 0 2025/04/21 arXiv:2401.18085v1 orangelcx

A Unified Continual Learning Framework with General Parameter-Efficient Tuning

“预训练$ \ rightarrow $ downstream改编”为持续学习带来了新的机会和挑战（CL）。尽管CL中最近的最新技术是通过参数效率调整（PET）适应范式实现的，但仅探索了提示，仅限制了其应用于 Transformer 。在本文中，我们将促使PET的一个实例化定位，并用一般PET提出一个统一的CL框架，被称为学习蓄能 - 征服 - 综合（LAE） ...

0 0 0 2025/04/21 arXiv:2303.10070v2 19396386025

CoST: Contrastive Quantization based Semantic Tokenization for Generative Recommendation

基于嵌入的检索是工业推荐系统匹配的候选项目的主要方法。随着生成AI的成功，生成的检索最近成为了推荐的新检索范式，该范式将项目检索视为一代问题。它的模型由两个阶段组成：语义 Token 化和自回归产生 ...

0 0 0 2025/04/21 arXiv:2404.14774v2 yushun

Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation

减轻奖励黑客 - 由于其学习目标中的缺陷或错误的特定问题，AI系统行为不当 - 造成了构建能力和调整模型的关键挑战。我们表明，我们可以通过使用另一个观察该模型的经济链（COT）推理的LLM来监视诸如OpenAI O3-Mini之类的前沿推理模型，以便在代理编码环境中进行奖励黑客入侵。 COT监视可以比单独监测剂的动作和输出更有效，我们进一步发现，比O3-Mini（即GPT-4O）弱的LLM可以有效 ...

0 0 0 2025/04/21 arXiv:2503.11926v1 translater

Motion Dreamer: Boundary Conditional Motion Reasoning for Physically Coherent Video Generation

视频生成的最新进展显示出了生成未来场景的希望，这对于自动驾驶和体现智能的计划和控制至关重要。但是，现实世界的应用要求在视觉上的合理预测中要求更多。他们需要基于明确定义的边界条件的对象运动的推理，例如初始场景图像和部分对象运动。我们称此能力边界条件运动推理 ...

0 0 0 2025/04/21 arXiv:2412.00547v3 orangelcx

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）