Shapley值(SV)是一个公平且原则性的度量标准,用于跨性别联盟学习(Cross-Silo FL)的贡献评估,其中组织(即客户端)与参数服务器的协作进行了协作训练预测模型 ...
数据评估旨在量化单个数据源在培训机学习(ML)模型中的实用性,并且是以数据为中心的ML研究的关键方面。但是,尽管具有重要意义,但数据评估仍面临着大量但经常忽视的隐私挑战。本文研究了这些挑战,重点是KNN-Shapley,这是当今最实用的数据评估方法之一 ...
Shapley值已被提议作为对机器学习中许多应用的解决方案,包括用于公平的数据估值。 Shapley值在计算上很昂贵,并且涉及整个数据集。查询点的沙普利值也可能损害其他数据点的统计隐私 ...
给定一个数据集$ \ MATHCAL {D} $,其中包含数百万个数据点和一个愿意为\ $$ x $付费的数据消费者,以训练机器学习(ML)型号(ML)型号,我们应该如何将此\ $$ x $分配给每个数据点以反映其“价值”?在本文中,我们通过Shapley值来定义“数据的相对价值”,因为它独特地具有具有吸引人的现实解释的属性,例如公平,合理性和去偏移性。对于一般有限的实用程序功能,众所周知,Shapley值是具有挑战性的:要获得所有$ n $数据点的Shapley值,它需要$ O(2^n)$模型评估,用于精确计算,$ O(n \ log n)$ for $(\ Epsilon,\ epsilon,\ delta)$ - 近似值。在本文中,我们专注于依靠$ k $ neart邻居($ k $ nn)的一个受欢迎的ML模型家族 ...
联邦学习利用参与者提供的各种资源来协作培训全球模型,该模型有可能解决机器学习的数据隐私问题。在这种有希望的范式中,如果没有足够的培训数据和学习过程中的其他资源,则表现将恶化。因此,激发更多参与者的参与者以一些用于联合学习的付款来贡献其宝贵资源非常重要 ...
在大规模的统计学习中,数据收集和模型拟合正在越来越多地向外围设备移动 - - 手机,手表,健身追踪器 - 远离集中式数据收集。与该分散数据中的这一增加的同时,越来越多的挑战保持隐私,同时允许足够的信息符合准确,有用的统计模型。这激发了当地隐私的概念 - 最重要的是,当地的差异隐私,这为敏感数据披露提供了强有力的保护 - 在统计学家或学习者甚至可以观察到数据之前,数据被混淆,为个人数据提供了强有力的保护 ...
隐私和透明度是值得信赖的机器学习的两个关键基础。模型说明提供了对模型对输入数据的决定的见解,而隐私主要涉及保护有关培训数据的信息。我们分析模型解释与有关模型训练集的敏感信息的泄漏之间的联系 ...
作为合作游戏理论中的解决方案概念,Shapley的价值在模型可解释性研究中得到了高度认可,并被领先的机器学习作为服务(MLAAS)提供商,例如Google,Microsoft和IBM。但是,由于已经对基于沙普利价值的模型可解释性方法进行了彻底的研究,但很少有研究人员认为,尽管可解释性和隐私是机器学习(ML)模型的两个基础,但Shapley Values产生的隐私风险。在本文中,我们使用特征推理攻击研究了基于Shapley价值的模型解释性方法的隐私风险:根据其Shapley值解释重建私人模型输入 ...
随着机器学习的黑匣子越来越多地被部署到医疗保健和刑事司法等领域时,人们越来越强调建立工具和技术,用于以可解释的方式解释这些黑匣子。领域专家正在利用这种解释来诊断系统的错误和黑匣子的潜在偏见。在本文中,我们证明了依赖于输入扰动的事后解释技术,例如石灰和摇动,是不可靠的 ...
在一个隐私模型下工作,即使从统计学家中,我们仍然研究了隐私保证与由此产生的统计估计器的风险之间的权衡。我们开发了私人版本的经典信息理论界限,尤其是由于Le Cam,Fano和Assouad所致。这些不平等范围允许在当地隐私限制和证明(Minimax)最佳估计程序的开发下对统计率进行精确表征 ...