区域级字幕旨在为特定图像区域生成自然语言描述,同时突出其区别特征。但是,现有的方法难以在多范围内产生独特的标题,从而限制了其现实世界的适用性。为了满足详细的区域级别理解的需求,我们介绍了UECA数据集,这是一个针对多晶体区域字幕的大规模数据集 ...
0 0 0 2025/04/23 arXiv:2504.05305v1 Rainbow
标题变性问题挑战了区域级的字幕,该问题是指预先训练的多模式模型倾向于预测最频繁的标题,但错过了较不频繁的标题。在这项研究中,我们提出了可控的区域级字幕(ControlCAP)方法,该方法将控制词引入多模型模型以解决标题变性问题。在具体而言,ControlCAP利用一个区分模块在标题空间内生成控制单词,以将其划分为多个子空间 ...
0 0 0 2025/04/23 arXiv:2401.17910v3 Rainbow
机器人指令以下任务需要无缝整合视觉感知,任务计划,目标定位和运动执行。但是,由于在操作约束下将冗长的指令置于可操作的计划中,因此在零拍摄的情况下,现有的指导以下任务计划方法是数据驱动或零镜头方案的表现不佳。为了解决这个问题,我们提出了FlowPlan,这是一种结构化的多阶段LLM工作流程,可提高零击管道,并弥合零摄像机和数据驱动的内在学习方法之间的性能差距 ...
0 0 0 2025/04/23 arXiv:2503.02698v1 jueli
(()正在成为企业为客户和合作伙伴提供支持的越来越常见的机制... ...
0 0 0 2025/04/22 arXiv:2308.04624v1 chendl
通过利用外部知识源来提高特定于领域的问题避开(QA)任务的大语言模型(LLM)。但是,传统的抹布系统主要集中于基于相关的检索,并且通常会在冗余中挣扎,尤其是当推理需要连接来自多个来源的信息时。本文介绍了Vendi-Rag,这是一个基于迭代过程的框架,该过程共同优化了检索多样性和答案质量 ...
0 0 0 2025/04/22 arXiv:2502.11228v1 jwj5452365
大型语言模型(LLM)在各种复杂的任务中表现出了显着的功能,但它们仍然遭受幻觉的困扰。引入外部知识(例如知识图)可以增强LLM提供事实答案的能力。 LLM具有交互式探索知识图的能力 ...
0 0 0 2025/04/22 arXiv:2502.12029v2 jwj5452365
能够在没有监督的情况下学习图像的密集语义表示是计算机视觉中的一个重要问题。然而,尽管它具有重要意义,但此问题仍然没有探索,其中有一些例外,这些例外考虑了狭窄的视觉域的小规模数据集上的无监督语义分割。在本文中,我们首次尝试解决传统上用于监督案件的数据集上的问题 ...
0 0 0 2025/04/22 arXiv:2102.06191v3 一支王同学
随着 LLM 参数的扩展,微调整个模型的计算成本变得令人望而却步。为了应对这一挑战,我们引入了 PEFT 方法、主奇异值和奇异向量自适应(PiSSA),它可以优化显着减小的参数空间,同时实现或超越全参数微调的性能。 PiSSA 受到 Intrinsic SAID 的启发,它表明预先训练的、过度参数化的模型存在于低内在维度的空间中 ...
0 0 0 2025/04/22 arXiv:2404.02948v4 szfmsmdx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)