在这项工作中,我们通过引入模块化方法来解决在隐私敏感数据集上训练机器学习模型的实际挑战,该方法可以最大限度地减少训练算法的变化,为隐私机制提供多种配置策略,然后隔离和简化关键逻辑计算最终的隐私保证。一个关键的挑战是训练算法通常需要从同一组示例中估计许多不同的量(向量)——例如,深度学习架构中不同层的梯度,以及度量和批量归一化参数。其中每一个都可能具有不同的属性,例如维度、大小和噪声容限 ...
机器学习模型在现实世界的应用中无处不在,并且是研究的持续焦点。与此同时,社区已经开始意识到保护机器学习训练数据隐私的重要性。差分隐私 (DP) 已成为做出有关数据匿名化的正式声明的黄金标准 ...
在过去的十年中,差异隐私作为数据隐私的严格且实用的形式化取得了巨大的成功。然而,这种隐私定义及其基于散度的松弛有几个公认的弱点,无论是在处理私有算法的组成方面还是在分析重要原语(例如通过子采样进行隐私放大)时。受隐私假设检验公式的启发,本文提出了一种新的放宽方法,我们将其称为“$f$-差分隐私”($f$-DP) ...
差分隐私随机梯度下降 (DP-SGD) 是一种流行的方法,用于训练具有正式差分隐私 (DP) 保证的机器学习模型。当 DP-SGD 分批处理训练数据时,它使用泊松子采样来选择每一步的批次。然而,由于计算和兼容性方面的优势,用混洗代替子采样已成为常见的做法 ...
差异隐私配备了多种分析工具,用于设计隐私数据分析。一个重要的工具是所谓的“子采样隐私放大”原则,它确保在总体的随机子样本上运行的差分隐私机制比在整个总体上运行时提供更高的隐私保证。已经针对不同的随机子采样方法研究了该原理的几个实例,每种方法都进行了临时分析 ...
矢量数据库管理大量嵌入矢量。随着人工智能应用程序的快速增长,需要存储和索引的嵌入数量也在快速增长。 Faiss 库致力于矢量相似性搜索,这是矢量数据库的核心功能 ...
搜索引擎通常遵循两阶段范例,其中在第一阶段(检索阶段)检索初始文档集,在第二阶段(重新排名阶段)对文档重新排名以获得最终结果列表。虽然在之前的工作中,深度神经网络被证明可以提高重新排序阶段的性能,但很少有关于使用深度神经网络来改善检索阶段的文献。在本文中,我们研究了检索阶段结合深度神经网络模型和词汇模型的优点 ...
我们研究了实用且可扩展的算法,用于训练具有用户级差分隐私(DP)的大型语言模型(LLM),以便可靠地保护每个用户贡献的所有示例。我们研究了 DP-SGD 的两种变体:(1) 示例级采样 (ELS) 和每示例梯度裁剪,以及 (2) 用户级采样 (ULS) 和每用户梯度裁剪。我们推导出一种新颖的用户级 DP 会计师,使我们能够为 ELS 计算可证明的严格隐私保证 ...
具有人类反馈的强化学习 (RLHF) 使用偏好数据集对预训练的大语言模型 (LLM) 进行微调,使 LLM 能够生成符合人类偏好的输出。考虑到不同客户持有的这些偏好数据集的敏感性,需要在联邦学习 (FL) 框架内实施 RLHF,而客户出于隐私问题不愿意共享其数据。为了解决这个问题,我们引入了一个可行的框架,其中客户使用我们提出的 FedBis 以其偏好数据集协作训练二元选择器 ...
下游场景优化大型语言模型(LLM)通常涉及通过进一步定制预的LLM。Meta公开发布的Llama模型和OpenAI用于在自定义数据集上关系GPT-3.5 Turbo的API也鼓励了这种做法... ...