大型语言模型(LLMS)的快速发展在调节用户模型交互时提出了重大挑战。尽管LLM具有显着的功能,但它们仍然容易受到对抗攻击的影响,尤其是绕过内容安全措施的``越狱''技术。当前的内容审核系统主要依赖于输入提示过滤,这是事实证明的不足,其技术诸如N(BON)越狱之类的技术在对流行的LLM中的成功率达到80%或以上 ...
大型语言模型(LLM)对于进攻性语言检测至关重要,但是他们处理注释分歧的能力仍然没有得到充实的态度。由主观解释引起的分歧样本由于其模棱两可的性质构成了独特的挑战。了解LLM如何处理这些案件,尤其是其信心水平,可以洞悉其与人类注释者的一致性 ...
社交媒体平台上有害内容的普遍性给用户和社会带来了重大风险,因此需要更有效,可扩展的内容审核策略。当前的方法依赖于人类主持人,监督分类器和大量培训数据,并且经常在可扩展性,主观性和有害内容的动态性质上挣扎(例如, ...
元学习或“学习学习”是机器学习的一个子领域,其目标是开发模型和算法,可以从各种任务中学习并随着时间的推移改善他们的学习过程。与专注于学习特定任务的传统机器学习方法不同,元学习旨在利用先前任务的经验来增强未来的学习。在新任务的可用数据有限但存在相关任务的大量数据的情况下,这种方法尤其有益 ...
AI安全审核(ASM)分类器旨在适度社交媒体平台上的内容,并充当防止大型语言模型(LLMS)在不安全输入上进行微调的护栏。由于它们对不同影响的潜力,至关重要的是要确保这些分类器:(1)与多数群体相比,不要不公平地将属于少数群体的用户的内容分类为不安全,并且(2)他们的行为在相似的投入中保持强大和一致。在这项工作中,我们研究了四个广泛使用的,封闭的ASM分类器的公平性和鲁棒性:OpenAI Meig ...
大型语言模型(LLMS)表现出强大的功能,使它们在包括对话AI产品在内的不同应用中具有价值。通过减轻恶意用户互动的脆弱性来确保这些产品的安全性和可靠性至关重要,这可能导致巨大的风险和声誉影响。在这项工作中,我们介绍了一项有关对不同LLM的微调和对齐链链(COT)响应的疗效的全面研究,这些响应(COT)是输入节制护栏的功效 ...
基于联邦转移学习(FTL)的智能设备故障诊断(FTL)引起了学术界和行业的极大关注。它允许实际样品有限的现实世界工业代理人构建故障诊断模型,而不会危害其原始数据隐私。但是,现有的方法既不能解决由实践代理的不同工作条件引起的强烈样本异质性,也不能解决新部署的设备的极端断层标签稀缺性,甚至零 ...
无监督的域适应性(UDA)已成为数据驱动故障诊断的关键解决方案,以解决域移动,其中模型在不断变化的环境中表现不佳。但是,在不断变化的环境的领域,UDA在适应新的域时往往不佳,这是一个被称为灾难性遗忘的问题。为了解决此限制,我们介绍了Everadapt框架,该框架专为动态环境中的连续模型适应而设计 ...