一译 —— 文档和论文翻译、对照阅读、讨论和社区

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

尽管视觉语言有效监督了微调在增强视觉大语模型（VLLM）的性能方面的有效性。但是，现有的视觉说明调谐数据集包括以下局限性：（1）指令注释质量：尽管现有的VLLM表现出强大的性能，但这些高级VLLM产生的指令仍可能遭受不准确的损失，例如幻觉。 （2）说明和图像多样性：指令类型的有限范围以及图像数据中缺乏多样性可能会影响该模型产生多样化并更接近现实世界情景输出的能力 ...

0 0 0 2025/03/06 arXiv:2407.15838v2 dm616703

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

多模式大语言模型（MLLM）的进步已在多模式理解方面取得了重大进展，从而扩大了他们分析视频内容的能力。但是，MLLM的现有评估基准主要集中在抽象的视频理解上，缺乏对其理解视频构图能力的详细评估，对视觉元素如何在高度编译的视频环境中结合和互动的细微解释。我们介绍了VidComposition，这是一种新的基准测试，专门旨在使用精心策划的编译视频和电影级注释来评估MLLM的视频组成能力 ...

0 0 0 2025/03/06 arXiv:2411.10979v3 Jungang

Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

视觉语言模型 (VLM) 最近取得了重大进展，但与闭源模型相比，开源指令数据的规模和质量有限，阻碍了其性能。在这项工作中，我们通过引入 Infinity-MM 来解决这一限制，这是一个包含 4000 万个样本的大规模多模式指令数据集，并通过严格的质量过滤和重复数据删除进行了增强。我们还提出了一种基于开源 VLM 的综合指令生成方法，使用详细的图像注释和多样化的问题生成 ...

0 0 0 2025/03/06 arXiv:2410.18558v2 sunjiaheng

On the Compatibility between Neural Networks and Partial Differential Equations for Physics-informed Learning

我们阐明了陷阱和物理信息神经网络（PINNS）的机会。我们证明，仅具有relu（整流线性单元）或类似Relu的Lipschitz激活功能的多层感知器（MLP）始终会导致消失的Hessian。这样的网络施加的约束与任何第二或高阶部分微分方程（PDE）矛盾 ...

0 0 0 2025/03/06 arXiv:2212.00270v2 Frazy

StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval

基于草图的图像检索（SBIR）是一个跨模式匹配问题，通常通过学习一个关节嵌入空间来解决，其中保留了照片和草图模式之间共享的语义内容。但是，到目前为止，SBIR中的一个基本挑战在很大程度上被忽略了，也就是说，草图是由人类提出的，并且不同用户之间存在相当大的样式变化。一个有效的SBIR模型需要明确说明这种样式多样性，以概括为看不见的用户样式 ...

0 0 0 2025/03/06 arXiv:2103.15706v2 lllianghe

MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors

在本文中，我们提出了MOTRV2，这是一种简单而有效的管道，用于使用预审前的对象检测器进行端到端的多目标跟踪。现有的端到端方法，MOTR和TrackFormer不如它们的跟踪，主要是由于它们的检测性能不佳。我们旨在通过优雅地合并额外的对象检测器来改善MOTR ...

0 1 0 2025/03/06 arXiv:2211.09791v2 silent

PirateNets: Physics-informed Deep Learning with Residual Adaptive Networks

尽管物理知识的神经网络（PINN）已成为一个流行的深度学习框架，用于解决由部分微分方程（PDES）控制的前进和反问题，但当采用更大，更深的神经网络体系结构时，众所周知，它们的性能会降低。我们的研究表明，这种反直觉行为的根源在于使用具有不适合初始化方案的多层感知器（MLP）体系结构，从而导致网络衍生物的培训较差，最终导致PDE残基损失的不稳定最小化。为了解决这个问题，我们介绍了物理知识的残留自适应网 ...

0 0 0 2025/03/06 arXiv:2402.00326v3 Frazy

Self-supervised 6-DoF Robot Grasping by Demonstration via Augmented Reality Teleoperation System

大多数现有的6多型机器人掌握解决方案都取决于对掌握姿势的强大监督，以确保令人满意的性能，当机器人在某些受限区域工作时，这可能是费力和不切实际的。为此，我们通过增强现实（AR）远程操作系统提出了一个自我监管的6-DOF rasp姿势检测框架，该系统可以有效地学习人类的示范并提供6-DOF的掌握姿势，而无需掌握姿势注释。具体而言，该系统从AR环境中收集了人类的演示，并从演示中学习了掌握策略 ...

0 0 0 2025/03/06 arXiv:2404.03067v1 veux

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）