一译 —— 文档和论文翻译、对照阅读、讨论和社区

One missing piece in Vision and Language: A Survey on Comics Understanding

视觉语言模型最近已演变为能够在各种任务中具有高性能的多功能系统，例如文档理解，视觉问题答案和接地，通常通常是在零拍设置中。漫画理解是一个复杂而多方面的领域，可以从这些进步中受益匪浅。漫画作为一种媒介，将丰富的视觉和文本叙述结合在一起，挑战AI模型以及涵盖图像分类，对象检测，实例细分以及通过顺序面板更深入的叙述理解的任务 ...

0 0 0 2025/05/14 arXiv:2409.09502v2 18232448525

1$^{st}$ Place Solution of WWW 2025 EReL@MIR Workshop Multimodal CTR Prediction Challenge

www 2025 EREL@mir Workshop多模式CTR预测挑战着重于有效地应用多模式嵌入功能，以提高建议系统中的点击率预测（CTR）预测。该技术报告介绍了我们的1 $^{st} $ place Winning解决方案，以结合顺序建模和功能交互学习，以有效地捕获用户项目的交互。对于多模式信息集成，我们只需将冷冻的多模式嵌入将其附加到每个项目的嵌入中即可 ...

0 0 0 2025/05/14 arXiv:2505.03543v1 ttwt

ComicsPAP: understanding comic strips by picking the correct panel

大型的多模型模型（LMM）在图像字幕，VQA和视频理解方面取得了令人印象深刻的进步，但他们仍然在漫画中发现的复杂的时间和空间提示方面挣扎。为了解决这一差距，我们介绍了ComicsPap，这是一种旨在理解漫画的大规模基准。 ComicsPap在Pick-A-Panel框架下组成了超过100K样品，并在Pick-A-Panel框架下组织了5个子任务，要求模型以序列识别缺失的面板 ...

0 0 0 2025/05/14 arXiv:2503.08561v2 18232448525

CoMix: A Comprehensive Benchmark for Multi-Task Comic Understanding

随着单页分析和合成模型的开发，漫画领域正在迅速发展。但是，评估指标和数据集滞后，通常仅限于小型或单式测试集。我们介绍了一种新颖的基准Comix，旨在评估漫画分析中模型的多任务功能 ...

0 0 0 2025/05/14 arXiv:2407.03550v2 18232448525

BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving

在自动驾驶中检索复杂场景数据的需求正在增加，尤其是因为乘用车已经配备了驾驶城市环境的能力，因此必须解决长尾方案。同时，在先前存在的二维图像检索方法下，场景检索可能会引起一些问题，例如缺乏全局特征表示和不足的文本检索能力。为了解决这些问题，我们提出了\ textbf {bev-clip}，这是第一个多模式的鸟类视图（BEV）检索方法，该方法利用描述性文本作为检索相应场景的输入 ...

0 0 0 2025/05/14 arXiv:2401.01065v2 zhouzhengjun

Sentence Embeddings by Ensemble Distillation

本文为语义文本相似性（STS）贡献了新的最新技术（SOTA）。我们比较并结合了一些最近提出的STS句子嵌入方法，并提出了一种新颖而简单的合奏知识蒸馏方案，以改进以前的方法。我们的实验表明，经过训练的模型，可以从多个合奏学生那里学习平均嵌入空间，以较高的鲁棒性优于所有其他单个模型 ...

0 0 0 2025/05/14 arXiv:2104.06719v1 llleo

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

最近，像GPT-O1和DeepSeek-R1这样的缓慢思考的系统在通过明确反思来解决具有挑战性的问题方面具有巨大的潜力。在各种数学和科学基准上，他们的表现极大地超过了最好的快速思维模型，例如GPT-4O。但是，它们的多模式推理能力与快速思维的模型相当 ...

0 0 0 2025/05/14 arXiv:2504.08837v3 kangningfei

EagleVision: Object-level Attribute Multimodal LLM for Remote Sensing

多模式大语言模型（MLLM）的最新进展已在各种视觉任务中表现出令人印象深刻的结果。但是，在遥感（RS）中，高分辨率和一小部分对象对现有的MLLM构成了挑战，这些挑战与以对象为中心的任务困难，尤其是在精确的本地化和每个对象的精确粒度属性描述中。这些RS MLLM尚未超过经典的视觉感知模型，因为它们仅提供粗略的图像理解，从而在现实世界中导致有限的增长 ...

0 0 0 2025/05/14 arXiv:2503.23330v1 dm616703

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）