一译 —— 文档和论文翻译、对照阅读、讨论和社区

Res2Net: A New Multi-scale Backbone Architecture

在多个尺度上表示特征对于许多视觉任务非常重要。主干卷积神经网络（CNN）的最新进展不断展现出更强的多尺度表示能力，从而在广泛的应用中实现一致的性能提升。然而，大多数现有方法以分层方式表示多尺度特征... ...

0 0 0 2025/04/06 arXiv:1904.01169v3 ninelie02

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

在图像-文本对上调整大语言模型（LLM）的视觉指令已经实现了通用视觉-语言能力。然而，区域文本对的缺乏限制了它们在细粒度多模态理解方面的进步。在本文中，我们提出了空间指令调整，它在指令中引入了对感兴趣区域（RoI）的引用 ...

0 0 0 2025/04/06 arXiv:2307.03601v4 hx5563

Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

计算机使用代理通过直接与计算机和移动设备上的图形用户界面（GUI）进行交互来自动化数字任务，从而通过完成用户查询的开放式空间来提高人类生产力。但是，当前的代理商面临重大挑战：GUI元素的不精确基础，长期任务计划的困难以及依靠单个通才模型来执行各种认知任务的绩效瓶颈。为此，我们介绍了Agent S2，这是一个新颖的构图框架，该框架将各种通才和专业模型的认知责任委托 ...

0 0 0 2025/04/06 arXiv:2504.00906v1 liuweitang

HuatuoGPT, towards Taming Language Model to Be a Doctor

在本文中，我们提出了Huatuogpt，这是一种大型语言模型（LLM），用于医学咨询。 Huatuogpt的核心食谱是在受监督的微型阶段中利用\ textit {devilled {来自Doctors的蒸馏数据和\ textit {真实世界数据}。 Chatgpt的回答通常是详细的，富有说明和信息丰富的，而在许多方面都不能像医生一样表现 ...

0 0 0 2025/04/06 arXiv:2305.15075v1 王德发

Retrieval, Reasoning, Re-ranking: A Context-Enriched Framework for Knowledge Graph Completion

知识图完成〜（kgc）任务旨在从不完整的三倍中推断出缺失的实体。现有的基于嵌入的方法仅依赖于公园中的三元组，这很容易受到相当的关系模式和长尾实体的影响。另一方面，基于文本的方法在KG三元和自然语言之间的语义差距上挣扎 ...

0 1 0 2025/04/06 arXiv:2411.08165v1 stringify

P$^2$OT: Progressive Partial Optimal Transport for Deep Imbalanced Clustering

深层聚类学习没有标签信息的表示表示和语义聚类，这对基于深度学习的方法构成了巨大的挑战。尽管近年来取得了重大进展，但大多数现有的方法都集中在统一分布的数据集上，从而大大限制了其方法的实际适用性。在本文中，我们首先引入了一个更实用的问题设置，名为“深度不平衡聚类”，基础类别的分布表现出不平衡的分布 ...

0 0 0 2025/04/06 arXiv:2401.09266v1 likelc

CenterMask : Real-Time Anchor-Free Instance Segmentation

我们提出了一个简单而有效的无锚固实例分割，称为Centermask，它增加了一种新型的空间注意力引导蒙版（SAG掩码）分支，以使用掩模R-CNN的同一静脉中锚定无阶段的一个阶段对象检测器（FCO）。插入FCOS对象检测器中的SAG掩码分支可以使用空间注意力图预测每个框上的分割掩码，这有助于专注于内容丰富的像素并抑制噪声。我们还提出了一个有效的策略：（1）减轻较大Vovnet \ Cite {lee ...

0 0 0 2025/04/06 arXiv:1911.06667v6 武切维奇五千万

GeoCalib: Learning Single-image Calibration with Geometric Optimization

从单个图像中，视觉提示可以帮助推断出固有和外在的摄像头参数，例如焦距和重力方向。这种单像校准可以使各种下游应用程序受益，例如图像编辑和3D映射。当前解决此问题的方法基于具有线条和消失点的经典几何形状，也可以基于经过训练的端到端的深度神经网络 ...

0 0 0 2025/04/06 arXiv:2409.06704v2 zack_zhangzh

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）