尽管表现出越来越像对话能力,但最先进的对话模型经常引起事实错误和人类知识幻觉的困扰(Roller等人,2020)。在这项工作中,我们探索了神经检索循环架构的使用——最近在开放域中被证明 QA 中是有效的(Lewis 等人 ... ...
0 0 0 2025/01/16 arXiv:2104.07567v1 Leez
我们提出了 Answer-Me,一个任务感知的多任务框架,它统一了各种问答任务,例如视觉问答、视觉蕴涵、视觉推理。与之前使用对比或生成字幕训练的作品相比,我们提出了一种新颖而简单的方法来预训练视觉语言联合模型,该模型也是多任务的。预训练仅使用噪声图像字幕数据,并且被制定为使用具有强大语言编码器和解码器的端到端的整个架构 ...
0 0 0 2025/01/16 arXiv:2205.00949v2 hesy77
在电子商务广告中,广告平台通常依靠拍卖机制来优化不同的绩效指标,例如用户体验、广告商效用和平台收入。然而,大多数最先进的拍卖机制只专注于优化单个性能指标,例如 ...
0 0 0 2025/01/15 arXiv:2012.02930v2 zhangjx908
检索增强生成(RAG)系统最近通过将检索机制集成到语言模型中显示出显着的进步,增强了它们产生更准确和上下文相关响应的能力。然而,RAG 系统内各种组件和配置的影响仍未得到充分研究。全面了解这些元素对于根据复杂的检索任务定制 RAG 系统并确保在不同应用程序中实现最佳性能至关重要 ...
0 1 0 2025/01/15 arXiv:2501.07391v1 slices
Meta AI 最近发布了 Segment Anything 模型(SAM),该模型因其在与类别无关的分割方面的出色表现而受到关注。在本研究中,我们探索使用 SAM 来完成少镜头对象计数这一具有挑战性的任务,其中涉及通过提供一些示例边界框来对未见过类别的对象进行计数。我们将 SAM 的性能与其他少样本计数方法进行比较,发现如果没有进一步微调,目前 SAM 的性能并不令人满意,特别是对于小而拥挤的物 ...
0 0 0 2025/01/15 arXiv:2304.10817v1 vicky
现有的人群计数模型需要大量的训练数据,注释起来非常耗时。为了解决这个问题,我们提出了一种简单而有效的人群计数方法,利用分段一切无处不在模型(SEEM)(分段任何模型(SAM)的改编版)来生成用于训练人群计数模型的伪标签。然而,我们的初步调查显示,SEEM 在密集人群场景中的表现有限,主要是由于在高密度区域遗漏了许多人 ...
0 0 0 2025/01/15 arXiv:2402.17514v2 vicky
深度强化学习(DRL)是一种在各种复杂环境中训练自主代理的方法。尽管它在众所周知的环境中具有出色的性能,但它仍然容易受到微小条件变化的影响,这引发了人们对其在实际应用中可靠性的担忧。为了提高可用性,DRL 必须表现出可信性和稳健性 ...
0 0 0 2025/01/15 arXiv:2403.00420v2 knight
我们提出了联合语音翻译和识别(JSTAR)模型,该模型利用快慢级联编码器架构来同时进行端到端自动语音识别(ASR)和语音翻译(ST)。该模型基于传感器,并使用多目标训练策略,同时优化 ASR 和 ST 目标。这使得 JSTAR 能够生成高质量的流式 ASR 和 ST 结果 ...
0 0 0 2025/01/15 arXiv:2412.15415v1 melo_0925

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)