一译 —— 文档和论文翻译、对照阅读、讨论和社区

Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models

视觉语言模型（VLMS）学习用于文本和图像的共享特征空间，从而可以比较不同方式的输入。虽然先前的工作表明VLM将自然语言表示形式组织到编码复合含义的常规结构中，但尚不清楚在视觉嵌入空间中是否还出现了组成模式。在这项工作中，我们研究了图像结构域中的组成性，其中组成特性的分析受到视觉数据的噪声和稀疏性的挑战 ...

0 0 0 2025/03/27 arXiv:2503.17142v1 Heart

SAMGPT: Text-free Graph Foundation Model for Multi-domain Pre-training and Cross-domain Adaptation

图形能够在许多在线服务中建模互连实体，从而支持网络上的广泛应用程序。这提出了一个重要的问题：我们如何在多个源域上训练图基础模型并适应看不见的目标域？一个主要的障碍是，来自不同领域的图通常表现出不同的特征。一些研究利用大型语言模型根据与图形相关的文本描述对齐多个域，从而将其适用性限制在文本属性图中 ...

0 0 0 2025/03/27 arXiv:2502.05424v1 wozengyi

Towards an AI co-scientist

科学发现依靠科学家产生了经过严格实验验证的新假设。为了增加此过程，我们引入了AI共同科学家，这是一种基于Gemini 2.0的多代理系统 ...

0 0 0 2025/03/27 arXiv:2502.18864v1 algc

Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

大型神经网络和大型数据集蓬勃发展。但是，较大的网络和较大的数据集导致较长的培训时间阻碍了研发的进步。分布式同步SGD通过在平行工人池上划分SGD Minibatch，为该问题提供了潜在的解决方案 ...

0 0 0 2025/03/27 arXiv:1706.02677v2 L1MICH233

Towards Good Practices on Building Effective CNN Baseline Model for Person Re-identification

由于人类姿势变化，人体阻塞，摄像头视图变化等的关键问题，人们的重新识别确实是一项具有挑战性的视觉识别任务。为了解决这一问题，大多数最先进的方法都是基于深度卷积神经网络（CNN）提出的，它因其强大的特征学习能力和分类能力和分类能力和分类边界拟合能力而受到责任。尽管对人员重新识别的重要作用，但如何构建有效的CNN基线模型尚未得到很好的研究 ...

0 0 0 2025/03/27 arXiv:1807.11042v1 L1MICH233

MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation

多模式的大语言模型（MLLM）在理解复杂的语言和视觉数据方面表现出色，从而使通才机器人系统能够解释说明并执行具体的任务。然而，他们的现实部署受到大量计算和存储需求的阻碍。最近对LLM层中均匀模式的见解启发了稀疏技术以应对这些挑战，例如早期出口和象征性修剪 ...

0 0 0 2025/03/27 arXiv:2503.20384v1 蔡明方

Heuristic Learning with Graph Neural Networks: A Unified Framework for Link Prediction

链接预测是图形学习的基本任务，它固有地由图形的拓扑塑造。尽管传统的启发式方法是基于图形拓扑结构的，但它们在跨各种图表概括方面遇到了挑战。最近的研究工作旨在利用启发式方法的潜力，但是适应本地和全球启发式方法的统一配方仍未被发现 ...

0 0 0 2025/03/27 arXiv:2406.07979v2 xixiaixixi

Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine

近年来，多模式大语模型（MLLM）取得了显着进步，证明了发展智能生物医学助理的可行性。但是，当前的生物医学MLLM主要集中在图像级别的理解并将相互作用限制为文本命令上，从而限制了其能力边界和使用的灵活性。在本文中，我们引入了一种新型的端到端多模式的大型语言模型，该模型名为Medplib，该模型具有像素级的理解 ...

0 0 0 2025/03/27 arXiv:2412.09278v2 Lydia1317

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）