大型语言模型(LLM)已彻底改变了基于自然语言处理(NLP)的应用程序,包括自动化文本生成,问答,聊天机器人等。但是,他们面临着一个重大的挑战:幻觉,模型产生了合理的听起来但实际上不正确的反应。这破坏了信任并限制了LLM在不同域中的适用性 ...
0 0 0 2025/03/17 arXiv:2411.14258v1 yes
在紧迫气候变化挑战和节肢动物之间的生物多样性丧失的背景下,来自有机图像的自动分类学分类是一项激烈研究的主题。但是,基于CNN或VITS等深层神经视觉架构的传统AI管道面临限制,例如在长尾上的长尾表现降低,并且无法推理其预测。我们将图像字幕和检索型发电(RAG)与大语言模型(LLMS)集成在一起,以增强生物多样性监测,从而表征了稀有和未知的节肢动物物种的特殊希望 ...
0 0 0 2025/03/17 arXiv:2503.10886v1 my_lsz
机器学习的许多应用需要一个模型来对与训练样本分布不同的测试样本做出准确的预测,而训练期间特定于任务的标签很少。应对这一挑战的有效方法是在数据丰富的相关任务上预训练模型,然后在感兴趣的下游任务上对其进行微调。虽然预训练在许多语言和视觉领域都很有效,但如何在图数据集上有效地使用预训练仍然是一个悬而未决的问题... ...
0 0 0 2025/03/17 arXiv:1905.12265v3 beaver
本文介绍了Sana-Sprint,这是一种超快速文本图像(T2i)生成的有效扩散模型。 Sana-Sprint建立在预先训练的基础模型上,并通过混合蒸馏增强,将推理步骤从20至1-4大幅降低。我们介绍了三个关键的创新:(1)我们提出了一种无训练方法,该方法改变了持续时间一致性蒸馏(SCM)的预训练的流动匹配模型(SCM),从而消除了从SCRATCH中消除昂贵的培训并实现了高训练效率 ...
0 0 0 2025/03/17 arXiv:2503.09641v1 odenkkk
在过去的一年中,视频生成模型取得了显着的进步。 AI视频的质量不断提高,但以更大的模型大小,数据数量增加以及对培训计算的需求更大。在本报告中,我们提出开放式2 ...
0 0 0 2025/03/17 arXiv:2503.09642v1 ang868
对比视力语言预训练(称为剪辑)为使用大型图像文本对学习视觉表示提供了新的范式。它通过零照片知识转移在下游任务上表现出令人印象深刻的表现。为了进一步增强剪辑的适应能力,提出的现有方法可以微调额外的可学习模块,从而大大提高了少数弹性的性能,但引入了额外的培训时间和计算资源 ...
0 0 0 2025/03/17 arXiv:2207.09519v1 smallz
传统上,写作助理(例如,语法,微软副作用)通过采用句法和语义变化来描述图像成分,从而产生多样的图像标题 ...
0 0 0 2025/03/17 arXiv:2503.10997v1 my_lsz
尽管融合了外部知识来源,但检索增强发电(RAG)系统仍然容易受到幻觉答案的影响。我们提出了一个框架,该框架解决了现有幻觉检测方法中的两个关键局限性:(1)基于传统编码器方法的上下文窗口限制,以及(2)基于LLM的方法的计算效率低下。以Modernbert的扩展上下文功能(最高为8K Token )为基础,并在Ragtruth基准数据集上进行了培训,我们的方法的表现优于所有以前的基于编码器的模型和最 ...
0 0 0 2025/03/17 arXiv:2502.17125v1 leec

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)