持续适应对于一般的自治药物至关重要。例如,通过技能曲目预处理的家用机器人仍然必须适应每个家庭特定的看不见的任务。由此激励的是,基于语言模型中参数有效的微调,先前的作品探索了轻巧的适配器以适应预验证的策略,该策略可以从预读阶段中保留学习的功能并展示良好的适应性表现 ...
数十亿个规模的大语言模型(LLMS)需要在具有大存储HBM和丰富计算能力的昂贵服务器级GPU上部署。随着LLM辅助服务的流行,实现了对预算友好硬件的成本效益的LLM推断成为趋势。广泛的研究将LLM参数从昂贵的GPU转移到主机存储器 ...
对于当前的视觉模型来说,了解讽刺和幽默是一项具有挑战性的任务。在本文中,我们提出了讽刺图像检测的具有挑战性的任务(检测图像是讽刺是讽刺性的),理解(产生图像背后的原因)和完成(给定的一半图像,从给定的2个选项中选择了另一半,从而使完整的图像是讽刺的讽刺是讽刺性的),并释放了高级数据的YESBUT YESBUT,包含254个符合254的图像,并包含25434的图像。不同的艺术风格,以评估这些任务。数 ...
图形神经网络(GNN)通过建模近年来实体和关系如何相互作用,在知识图完成(KGC)方面取得了巨大成功。但是,对预测事实的解释并未引起必要的关注。对基于GNN的KGC模型结果的正确解释提高了模型透明度,并帮助研究人员开发更可靠的模型 ...
越狱攻击可以有效地操纵开源大语模型(LLM)来产生有害的反应。但是,这些攻击表现出有限的可转移性,未能始终如一地破坏专有LLM。为了可靠地确定专有LLM中的漏洞,这项工作通过分析其对模型意图的影响来调查越狱攻击的转移性 ...
在这项工作中,我们介绍了一系列对LLM对齐方式的结构转换攻击,在该攻击中,我们使用多种语法空间编码自然语言意图,从简单的结构格式和基本查询语言(例如SQL)到完全由LLMS创建的新型新颖空间和语法 ...
作为大型语言模型(LLM)的典型和实际应用,检索增强生成(RAG)技术受到了广泛的关注,特别是在LLM可能缺乏特定领域知识的垂直领域。在本文中,我们介绍了金融领域的全方位自动RAG基准测试OmniEval。我们的基准测试的特点是多维度的评估框架,包括(1)基于矩阵的RAG场景评估系统,将查询分为5个任务类别和16个金融主题,从而对不同的查询场景进行结构化评估; (2)多维度评价数据生成方法,结合基 ...
尽管大型语言模型(LLM)和多模式LLMS(MLLMS)具有显着的多功能性,以跨语言和视觉任务概括,但LLMS和MLLM却显示出易受越狱的脆弱性,在暴露于有害或敏感的输入时会破坏安全,道德和偏见的文本输出。随着最近通过人类反馈的偏好调整安全对齐的进步,LLM和MLLM已配备了安全护栏,以产生有关有害投入的安全,道德和公平的反应。但是,尽管安全一致性很重要,但对漏洞的研究仍然很大程度上没有被逐出 ...