现有方法通过合并辅助一对多的分配来增强检测 Transformer 的训练。在这项工作中,我们将模型视为一个多任务框架,同时执行一对一和一对一的预测。我们研究了在这两个训练目标中,每个组件在 Transformer 解码器中的作用,包括自我注意力,交叉注意力和前馈网络 ...
0 0 0 2025/06/22 arXiv:2412.10028v3 userpasf
尽管域的概括(DG)已经显着解决了由域移动引起的预训练模型的性能降低,但它通常在现实世界的部署中不足。使用未标记的测试数据调整了学习模型的测试时间适应(TTA)提出了有希望的解决方案。但是,大多数现有的TTA方法都难以在医学图像细分中实现强大的性能,这主要是因为它们忽略了医学图像固有的至关重要的先验知识 ...
0 0 0 2025/06/22 arXiv:2503.13012v1 userpasf
大型语言模型(LLM)越来越需要生成在各种开放式应用程序中既准确又多样的文本。但是,当前的随机解码方法努力平衡此类目标。我们介绍了动态焦点解码(DFD),这是一种新颖的插件随机方法,可以解决这种权衡,而无需其他数据,知识或模型 ...
0 0 0 2025/06/22 arXiv:2503.08057v2 gfsadasaf
UAV-VLA(视觉语言动作)系统是一种工具,旨在促进与空中机器人通信。通过将卫星图像处理与视觉语言模型(VLM)和GPT的强大功能集成在一起,UAV-VLA使用户能够通过简单的文本请求生成一般的飞行路径和行动计划。该系统利用卫星图像提供的丰富上下文信息,可以增强决策和任务计划 ...
0 0 0 2025/06/22 arXiv:2501.05014v2 mencius
零射的立场检测(ZSSD)旨在识别文本对以前看不见的目标的立场,在这种情况下,由于依赖标记的数据和浅词汇提示,常规监督模型经常失败。受人类认知推理的启发,我们提出了认知归纳推理框架(CIRF),该框架从未标记的文本中抽象了可转移的推理模式,并将其编码为概念级逻辑。为了将这些模式与输入参数集成在一起,我们引入了一个模式增强的图形内核模型(SEGKM),该模型(SEGKM)动态地对齐本地和全局推理结构 ...
0 0 0 2025/06/22 arXiv:2506.13470v1 Nought8298
检索增强生成 (RAG) 通过启用动态信息检索来减少生成内容中的知识差距和幻觉,显着改进了大型语言模型 (LLM)。然而,这些系统经常因复杂的推理和不同查询的一致性而出现问题。在这项工作中,我们提出了 Think-on-Graph 2 ...
0 0 0 2025/06/22 arXiv:2407.10805v7 spiritedge
通过为用户和系统设计师提供解释以促进更好的理解和决策,可解释的建议是一个重要的研究问题。在本文中,我们提出了反事实可解释的建议(反),该建议从因果推论中获得了反事实推理的见解,以寻求解释建议。 Counter能够制定解释的复杂性和力量,并且采用反事实学习框架来寻求简单(低复杂性)和有效(高强度)的解释,以实现模型决策 ...
0 0 0 2025/06/22 arXiv:2108.10539v3 CG_Z
由于近年来城市地区的快速扩张,路边停车的管理变得越来越重要。为了减轻交通拥堵,在满足城市的各种需求的同时,基于绩效的定价方案受到了很多关注。但是,最近的一些研究表明,地点,时间和政策意识是驱动停车决策的主要因素 ...
0 0 0 2025/06/22 arXiv:1712.01263v1 xiuhai

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)