作为大型语言模型(LLM)的典型和实际应用,检索增强生成(RAG)技术受到了广泛的关注,特别是在LLM可能缺乏特定领域知识的垂直领域。在本文中,我们介绍了金融领域的全方位自动RAG基准测试OmniEval。我们的基准测试的特点是多维度的评估框架,包括(1)基于矩阵的RAG场景评估系统,将查询分为5个任务类别和16个金融主题,从而对不同的查询场景进行结构化评估; (2)多维度评价数据生成方法,结合基 ...
0 0 0 2025/05/12 arXiv:2412.13018v2 ZYF0219
尽管大型语言模型(LLM)和多模式LLMS(MLLMS)具有显着的多功能性,以跨语言和视觉任务概括,但LLMS和MLLM却显示出易受越狱的脆弱性,在暴露于有害或敏感的输入时会破坏​​安全,道德和偏见的文本输出。随着最近通过人类反馈的偏好调整安全对齐的进步,LLM和MLLM已配备了安全护栏,以产生有关有害投入的安全,道德和公平的反应。但是,尽管安全一致性很重要,但对漏洞的研究仍然很大程度上没有被逐出 ...
0 0 1 2025/05/12 arXiv:2503.20823v1 whfeLingYu
概念擦除技术最近因其从文本到图像模型中消除不需要的概念的潜力而引起了极大的关注。尽管这些方法通常在受控方案中表现出成功,但它们在现实世界应用中的鲁棒性和准备部署的准备仍然不确定。在这项工作中,我们确定了评估消毒模型的关键差距,尤其是在其在各种概念方面的性能方面 ...
0 0 0 2025/05/12 arXiv:2501.09833v1 chaospler
大规模文本到图像扩散模型的扩展引起了人们对它们产生不良或有害内容的潜力的日益关注,从捏造的公众人物的描绘到性明确的图像。为了减轻这些风险,先前的工作已经设计了试图通过微调擦除不必要的概念的机器学习技术。但是,在本文中,我们引入了一种新的威胁模型,有毒的擦除(Toxe),并证明了最近的未学习算法,包括针对鲁棒性的明确设计的算法,可以通过有针对性的后门攻击来规避 ...
0 0 0 2025/05/12 arXiv:2504.21072v1 chaospler
大规模的文本对图像(T2I)扩散模型已彻底改变了图像的产生,从而使文本描述中高度详细的视觉效果合成。但是,这些模型可能会无意间产生不适当的内容,例如受版权保护的作品或令人反感的图像。尽管现有的方法试图消除特定的不需要的概念,但它们通常无法确保完全删除,从而使概念重新出现以微妙的形式出现 ...
0 0 0 2025/05/12 arXiv:2503.16835v1 chaospler
在删除特定目标概念时,文本到图像生成模型中现有的未学习算法通常无法保留语义相关概念的知识:一种称为邻接的挑战。为了解决这个问题,我们提出了淡出的淡出(扩散擦除的细粒度衰减),在扩散模型中引入了邻接的意识到的学习。淡出包括两个组成部分:(1)概念邻域,该概念邻域识别相关概念的邻接集,以及(2)网格模块,采用了结构化摄入,邻接和指导损失成分的结构组合 ...
0 0 0 2025/05/12 arXiv:2503.19783v1 chaospler
AI的一个宏伟目标是建立一个可以根据自然语言说明进行准确导航的机器人,这要求代理人感知场景,理解和地面语言,并在现实世界中的环境中采取行动。这里的一个主要挑战是在培训期间看不见的新环境中学习导航。与所见的环境相比,大多数现有方法在看不见的环境中的表现越来越差 ...
0 1 0 2025/05/12 arXiv:1904.04195v1 hanju
量化技术可以通过利用高吞吐量整数指令来减少深神网络的大小,并改善推理潜伏期和吞吐量。在本文中,我们回顾了量化参数的数学方面,并在各种神经网络模型上评估了它们的选择,以用于不同的应用领域,包括视觉,语音和语言。我们专注于具有高通量整数数学管道的处理器可以加速加速的量化技术 ...
0 0 0 2025/05/12 arXiv:2004.09602v1 felixslu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)