arxiv On the Client Preference of LLM Fine-tuning in Federated Learning

名称
On the Client Preference of LLM Fine-tuning in Federated Learning
首页
https://yiyibooks.cn/arxiv/2407.03038v1/index.html
原始地址
https://arxiv.org/pdf/2407.03038
描述
具有人类反馈的强化学习 (RLHF) 使用偏好数据集对预训练的大语言模型 (LLM) 进行微调,使 LLM 能够生成符合人类偏好的输出。考虑到不同客户持有的这些偏好数据集的敏感性,需要在联邦学习 (FL) 框架内实施 RLHF,而客户出于隐私问题不愿意共享其数据。为了解决这个问题,我们引入了一个可行的框架,其中客户使用我们提出的 FedBis 以其偏好数据集协作训练二元选择器 ...