基于提示的学习范式弥合了预训练和微调之间的差距,在多项 NLP 任务上实现了最先进的性能,特别是在少数样本设置中。尽管应用广泛,但基于提示的学习很容易受到后门攻击。文本后门攻击旨在通过触发器注入和标签修改来毒害训练样本的子集,从而将目标漏洞引入模型中 ...
大语言模型(LLM)的进步显着增强了有效处理各种下游 NLP 任务并将这些任务统一到生成管道中的能力。一方面,经过海量文本数据训练的强大语言模型为模型和用户带来了无与伦比的可访问性和可用性。另一方面,对这些模型的无限制访问也可能带来潜在的恶意和无意的隐私风险 ...
大型语言模型 (LLM) 正在改变移动智能的格局。联合学习 (FL) 是一种保护用户数据隐私的方法,通常用于对下游移动任务的 LLM 进行微调,这种方法称为 FedLLM。尽管最近的努力已经解决了由巨大模型尺寸引起的网络问题,但它们实际上并没有缓解与移动设备集成相关的重大挑战,例如大量的内存消耗和缓慢的模型收敛 ...
联邦参数高效微调 (FedPEFT) 已成为联邦学习 (FL) 设置中隐私保护和预训练语言模型 (PLM) 高效适应的有前途的范例。它通过保持数据分散并在本地设备上训练模型来保护数据隐私,确保原始数据永远不会离开用户的设备。此外,与微调整个模型相比,LoRA 等 PEFT 方法的集成显着减少了可训练参数的数量,从而最大限度地减少了通信成本和计算开销 ...
光学字符识别 (OCR) 可以从扫描或数字化的文本图像中自动提取文本,但也可以轻松地从这些图像中盗取有价值或敏感的文本。以前通过扭曲文本图像中的字符来防止 OCR 盗版的方法在现实场景中是不切实际的,因为盗版者可以捕获文本图像的任意部分,从而使防御无效。在这项工作中,我们提出了一种新颖有效的防御机制,称为通用防御底色补丁(UDUP),它修改文本图像而不是字符的底色 ...
NeMo Guardrails 是一个开源工具包,可轻松向基于 LLM 的对话系统添加可编程护栏。 Guardrails(或简称rails)是控制LLM输出的一种特定方式,例如不谈论被认为有害的主题、遵循预定义的对话路径、使用特定的语言风格等等。有多种机制允许 LLM 提供者和开发人员添加在训练时嵌入到特定模型中的护栏,例如 ...
联邦学习(FL)代表了机器学习的一种新颖范式,解决了与数据隐私和安全相关的关键问题,但也面临着数据不足和不平衡的问题。基础模型 (FM) 的出现为 FL 问题提供了一个有前景的解决方案。例如,FM 可以作为教师模型或 FL 的良好起点 ...
联邦学习使多方能够协作训练大型语言模型,而无需直接共享数据 (FedLLM)。遵循这种训练范式,社区从框架、性能、隐私等各个方面都付出了巨大的努力。然而,一个令人不快的事实是,目前 FedLLM 还没有现实的数据集和基准,之前的工作都依赖于人工构建的数据集,未能捕获现实场景中的属性 ...
即时学习已成为现代自然语言处理的新范式,它直接将预训练语言模型 (PLM) 应用于完形填空式预测、自回归建模或序列到序列生成,从而在各种任务上取得良好的性能。然而,目前还没有提出即时学习的标准实现框架,并且大多数现有的即时学习代码库通常不受监管,仅针对特定场景提供有限的实现。由于有很多细节,例如模板化策略、初始化策略、语言化策略等 ...
联邦学习(FL)通过聚合模型更新,以保护隐私的方式实现了去中心化数据的全局模型训练。然而,对于许多利用具有大量参数的预训练语言模型 (PLM) 的自然语言处理 (NLP) 任务来说,与 FL 相关的通信成本相当高。最近,在不修改 PLM 的情况下调整一些软提示的提示调整作为一种新的学习范式已经取得了优异的性能 ...