在大规模预训练的支持下,视觉基础模型在开放世界图像理解方面展现出巨大的潜力。然而,与擅长直接处理各种语言任务的大型语言模型不同,视觉基础模型需要特定于任务的模型结构,然后对特定任务进行微调。在这项工作中,我们提出了 Matcher,一种新颖的感知范式,它利用现成的视觉基础模型来解决各种感知任务 ...
0 0 0 2025/01/16 arXiv:2305.13310v2 liukai
我们解决了在没有监督的情况下学习对象检测器的问题。与弱监督目标检测不同,我们不假设图像级类别标签。相反,我们从视听数据中提取监控信号,使用音频组件“教导”对象检测器 ...
0 0 0 2025/01/16 arXiv:2104.06401v2 sadbb
随着检索增强生成在大型语言模型中盛行,嵌入模型变得越来越重要。尽管通用嵌入模型的数量不断增加,但先前的工作往往忽视了训练数据质量的关键作用。在这项工作中,我们介绍了 KaLM-Embedding,这是一种通用的多语言嵌入模型,它利用大量更清晰、更多样化和特定领域的训练数据 ...
0 0 0 2025/01/16 arXiv:2501.01028v4 realhanwenbo
尽管数据集有限,但这项研究解决了提高无人机(UAV)/无人机图像的处理时间和检测能力以进行全球野火检测的紧迫挑战。我们提出了分段神经网络(SegNet)选择方法,专注于减少特征图以提高时间分辨率和准确性,从而显着提高实时野火检测的处理速度和准确性。本文通过提出火、水、烟雾等非晶态物体图像分类的新方向,有助于提高处理速度,实现野火的实时检测能力,提高野火的检测精度,并提高早期野火的检测能力 ...
0 0 0 2025/01/16 arXiv:2405.00031v1 cinnaio
在线广告作为一个内在的市场,在引擎搜索、第三方网站、社交媒体和移动应用程序等平台上获得了极大的关注。在线活动的繁荣是在线营销中的一个挑战,通常通过不同的指标用户响应来评估,例如广告创意的点击次数、产品订阅、物品购买或通过在线调查获得的明确的用户反馈。近年来,使用计算方法(包括机器学习方法)进行用户响应预测的研究数量显着增加... ...
0 0 0 2025/01/16 arXiv:2101.02342v2 stongan
基于机器学习的运动规划是一种很有前途的方法,可以产生表现出复杂行为并自动适应新环境的代理。在自动驾驶的背景下,通常会平等对待所有可用的训练数据。然而,这种方法产生的代理在安全关键环境中表现不佳,这个问题不能通过简单地向训练集中添加更多数据来解决 - 我们表明,仅使用 10% 数据子集训练的代理仅执行以及在整个数据集上训练的代理 ...
0 0 0 2025/01/16 arXiv:2212.01375v1 fqf
通过将大型语言模型 (LLM) 与视觉编码器相结合,可以在几乎不需要训练的情况下(即以零和少样本的方式)处理越来越多的视觉语言任务,从而产生大型视觉语言模型 (LVLM)  ...
0 0 0 2025/01/16 arXiv:2310.05861v2 liukai
持续学习变得越来越重要,因为它有助于获取和完善语言模型中可扩展的知识和技能。然而,现有方法通常在现实场景中遇到严格的限制和挑战,例如依赖经验回放、优化约束和推理任务 ID。在这项研究中,我们引入了可扩展语言模型(SLM),以在更具挑战性和通用性的环境中克服这些限制,代表着持续学习实际应用的重大进步 ...
0 0 0 2025/01/16 arXiv:2404.07470v1 liukai

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)