基于Logistic最优化鲁棒性的聚类联邦学习

施玉倩巫朝霞

摘要：

为了解决联邦学习中数据异构导致模型准确率下降的问题，提出了一种基于Logistic最优化鲁棒性的聚类联邦学习（Logistic＼|based More Robust Clustered Federated Learning，LMRCFL）方法，将具有相似数据分布的客户端分组到相同的集群中，不需要访问其私有数据，可为每个客户端集群训练模型；
在目标函数中引入正则项更新本地损失函数，缓解Non＼|IID（非独立同分布）数据带来的客户端偏移问题，通过减小模型差异提升模型准确率。在CIFAR＼|10、fashion＼|MNIST、SHVN数据集上与其他联邦学习算法进行了对比，实验结果表明，LMRCFL算法在Non＼|IID数据分布下的准确率提高了8.13百分点～33.20百分点且具有鲁棒性。

关键词：联邦学习；
数据异构；
聚类；
非独立同分布；
正则化

中图分类号：TP301 文献标志码：A

0 引言（Introduction）

近年来，隐私泄露问题经常发生［1］。为了解决数据隐私问题，谷歌公司提出了联邦学习（Federated Learning， FL）［2＼|3］。即不同客户端在中央服务器的协调下训练共享模型。联邦学习在数据保密性和数据价值之间取得了良好的平衡。但是，由于客户端之间的数据具有异质性，传统的联邦学习应用到非独立同分布（Non＼|IID）数据上时，效果不理想。联邦学习训练过程中，Non＼|IID数据可能会产生客户端偏差的问题，导致训练模型的准确率降低，甚至难以实现收敛［4］。

针对上述问题，本文提出了基于Logistic最优化鲁棒性的聚类联邦学习方法，在全局模型聚合时上传模型参数及客户端训练后的平均Softmax值，使用层次聚类法进行优化，在本地更新时加入正则化［5］惩罚项修正本地损失函数，最大化地提高全局模型的收敛速度和模型质量，解决非独立同分布数据的异构问题。

1 相关研究（Related research）

目前，数据异质性［6＼|7］已被学者广泛研究。FedProx（Federated Proximal）［8］算法是基于FedAvg（Federated Averaging）算法，对其系统异质性和统计异质性进行了改进，对非独立同分布数据引起的客户端漂移问题进行了惩罚。KARIMIREDDY等［9］提出了SCAFFOLD随机控制平均算法，它使用控制变量（方差减少）纠正其局部更新中的客户端漂移问题，但这种算法要求客户端是有状态的，同时传递状态参数也会额外地增加通信开销。

同时，为了解决由Non＼|IID数据引发的问题，聚类联邦学习（CFL）［10＼|11］成为一个新兴的研究方向。聚类联邦学习［12＼|13］是基于客户梯度更新之间的余弦相似度证明推断客户群体的两个成员是否有不同的数据生成分布，从而能够推断聚类结构，它既可以在一定程度上解决本地训练中数据不足的问题，又可以减少异构数据对全局模型的影响。MORAFAH等［14］提出了FLIS（Clustered Federated Learning Via Inference Similarity for Non＼|IID Data Distribution）算法，旨在通过将客户端分组到具有联合可训练数据分布的集群中解决数据异构问题。通过比较客户端模型的推理相似性将具有相同学习任务的数据聚合。VAHIDIAN等［15］提出了PACFL（Principal Angles analysis for Clustered Federated Learning）算法，通过分析客户端数据子空间之间的主要角度，有效地识别客户端之间的分布相似性。加入联合的每个客户机，以一次性的方式对其本地数据应用一个截断的奇异值分解（SVD）步骤推导出一组主要向量提供给服务器，服务器识别客户端之间的分布相似性，从而形成集群。综上，对于数据非独立同分布的问题，可以从全局模型聚合或者本地客户端更新中优化联邦学习方法。但是，上述方法都从一个角度进行优化，难免会引发另一角度带来的影响，导致全局模型的质量降低。

2 背景知识（Background knowledge）

2.1 联邦学习

其中：N表示参与训练客户端的用户数据量，局部批次大小为B；
pi为参与训练的第i个客户端的聚合权重，其中pi≥0，并且∑i[DD）]pi=1；
Fi（w）是本地目标函数，表示参与训练的客户端在本地数据集（xi，yi）上对模型参数w的平均损失的预测值；
l（·）为交叉熵损失函数，本地局部模型训练损失函数为l（w;b）=∑（x，y）∈b[DD）]l（x;y;w），这是FL算法中的FedAvg算法给出的典型问题定义。

在FedAvg算法中，采用随机梯度下降（SGD）优化全局损失函数。为了简化场景，本研究设置了客户端的数量N个，每个客户端都有自己的本地数据集。在每一轮通信中，随机选择一定比例的客户端参与，服务器将前一轮的平均模型作为初始模型。客户端接收到服务器所发送的模型参数后，使用本地数据进行E轮训练，并将模型参数发送回服务器。服务器对收集到的模型参数进行聚合，获得新的全局模型，作为下一轮通信的初始点。当数据独立同分布（IID）时，每个局部模型的梯度下降方向与全局梯度下降方向相似，因此平均梯度下降方向也与全局梯度下降方向相似。但在高异质性（Non＼|IID）数据的情况下，服务器聚合的平均梯度下降方向偏离了全局梯度下降方向。因此，FedAvg在Non＼|IID数据环境下表现出的性能通常不如IID数据环境。与传统的分布式机器学习相比，FedAvg算法有效地降低了通信开销，但在实际应用中，会在客户数据的分布中出现不同程度的偏差。

2.2 聚类联邦学习

聚类在联邦学习中不能直接聚类节点中的数据，而是聚类节点中的模型参数，其意义在于寻找相似的模型参数，如同寻找相似的节点。根据模型参数进行聚类，寻得相似节点分类聚合，在减少数据异构对联邦学习造成影响的同时，也增强了节点数据的隐私性。本文将层次聚类用于联邦学习训练的主要原因如下：（1）距离规则的相似度更容易被定义，限制程度较小；
（2）不需要预先设定聚类数；
（3）能发现类层次关系。

层次聚类（HC）是以一个邻接矩阵作为输入，并将相似的对象分组到聚类中。HC首先将每个客户端看作一个初始聚类簇。通过在聚类的每一步计算所有聚类之间距离识别它们的相似性（距离阈值为聚类阈值，距离越小，其相似度越高），并将最近的两个聚类簇进行合并。迭代过程不断重复进行，直至达到预设的聚类簇的个数。

3.1 基于层次聚类的联邦学习

由于数据的异质性导致普通的联邦学习得到的全局模型无法很好地概括每个参与训练的客户端，因此本研究提出了一种个性化联邦学习的方法，即LMRCFL（Logistic＼|based More Robust Clustered Federated Learning）。LMRCFL方法可以自动将数据分布状态更新为相近参与联邦学的客户端，形成最合适的多个动态集群，在每个动态集群中，将原本具有Non＼|IID性质的客户端在多个动态的集群中转变为近似IID的分布，从而进一步提高模型准确率。数据的异质性导致传统的联邦学习方法无法很好地适应每个参与训练的客户端的特点。为了解决这一问题，引入个性化联邦学习方法自动将数据分布状态相似的客户端聚合成多个动态集群，以最佳方式进行模型训练。在每个动态集中，将原本具有非独立分布特性的客户端的数据，转化为近似独立同分布（IID）的分布，提高模型的精确性。

在动态聚类的联邦学习中，为了寻找分布更相似的客户端［16］，研究人员开展了研究，例如通过模型参数计算客户端模型之间的距离，或者使用每个模型的总损失值衡量它们的相似性。然而，有时即使模型参数相同，输出的结果仍可能存在较大差异。因此，使用模型参数和总损失值作为相似性度量的标准可能存在不确定性。为了解决这一问题，在联邦学习训练过程中，除了上传模型参数，本研究还上传了每个客户端在通信过程中，经过最后一轮本地训练后的所有数据输出的平均Softmax值，输出值是对本地拥有数据的描述，它可以清晰地反映客户端的数据分布状态，从而有助于寻找数据分布更相似的客户端。

当中心服务器接收到来自客户端上传的输出值后组成矩阵[WTHX]A[WTBX]，表示为[WTHX]A[WTBX]=［s1，s2，…，sn］。矩阵[WTHX]A[WTBX]包含了每轮参与训练的客户端上传的值。然后采用欧氏距离度量概率分布之间的距离，计算矩阵[WTHX]A[WTBX]中每个si与其他n-1个输出值之间的距离，从而生成一个邻接矩阵[WTHX]X[WTBX]。本研究将通过欧氏距离计算得到的距离度量记为sij，最终得到的邻接矩阵记为[WTHX]X[WTBX]ij，利用所得到的邻接矩阵[WTHX]X[WTBX]ij设计了一种新的层次聚类方法，采用Ward法作为层次聚类的链接方法，默认每一轮形成10个集群，等于每一轮中参与者客户的数量，Ward法是一种凝聚式层次聚类算法，其核心思想是将初始时每个数据点视为一个独立的聚类，然后逐渐合并这些聚类，每次合并都最小化簇内方差的增量，直到形成所需数量的聚类或满足某个停止条件。该方法能够自动确定所需的聚类数量，并用于构建联簇。

3.2 正则项

在联邦学习中，允许不同设备根据它们的性能和数据特点执行不同的训练，若每个设备都独立地进行本地模型更新，则可能导致因本地数据的异质性而产生全局模型的偏移问题。为了确保在联邦学习中模型在各个设备之间保持一定的一致性，需要在目标函数中引入正则项，将其看作一种惩罚机制，限制每个设备的本地数据更新幅度，使模型训练过程更加稳定。这为通过聚类方法对客户端进行分簇后实现个性化操作奠定了基础。通过这种方式，能够更好地促进设备之间的协作和知识共享，从而提高联邦学习的效果。

本文所提方法通过在本地经验风险中引入一个近端项，当全模型下发时，首先将模型参数冻结，对客户端进行更新，此时相当于局部模型进行更新得到L1，其次不冻结模型参数，下发模型参数并进行客户端更新得到L2，数据相同而模型不同，计算L1与L2之间的距离，观察它们之间的变化幅度，若L1与L2之间变化大，则认为模型参数发生了很大的变化，会影响最终的均值，此时把它加入损失函数中作为一个惩罚项，限制其受本地数据更新的影响。

3.3 基于动态聚类的联邦学习框架

算法流程如下。

Step1：服务器向客户端发送初始化全局模型参数w0，客户进行本地数据更新wi，并将更新后的模型参数发送回服务器。

Step2：服务器接收到客户端模型参数，通过Softmax函数归一化。

Step3：计算客户端到其他客户端的距离，构建邻接矩阵[WTHX]A[WTBX]ij，通过层次聚类将其划分为不同的簇。

Step4：每个簇内按样本权重加权，构建多个全局模型并进行模型下发，对应客户端接收到对应簇的全局模型。

Step5：为了控制模型的复杂度，局部模型的目标函数是在原损失函数的基础上加近端项作为惩罚项，通过正则化本地损失函数获得泛化性能更好的全局模型。

重复执行上述步骤，直至节点与中心服务端通信次数达到ROUNDS，则训练结束。

LMRCFL算法：

4 实验结果与分析（Experimental results analysis）

4.1 实验过程

4.1.1 数据集和模型

实验在CIFAR＼|10、Fashion＼|MNIST和SVHN数据集上评估LMRCFL方法的性能，引入CNN网络模型，由2个5×5卷积层、2个平均池化层和3个全连接层组成，每个卷积层都连接着2×2的池化层和ReLu激活函数，Softmax层作为输出层。

通过狄利克雷分布模拟非独立分布。在该分布中，用超参数控制设备之间数据分区的倾斜程度。若α越大，则设备间数据倾斜程度越小，越接近均匀分布；
若α越小，则设备间标签倾斜越严重，异构特性越明显。这种设置方式给数据分区引入了更多的随机性，虽然无法完全控制数据分区的结果，但是能较好地反映实际场景中的数据分区情况。实验中采用10个客户端，默认通过α=0.1狄利克雷分布随机采样选取100个客户端，最大聚类数为10类，批次大小为16。

CIFAR＼|10数据集是一个彩色图像数据集，每张图片的大小为32×32。Fashion＼|MNIST数据集是包含10个类别的70 000张衣物的灰度图像，分辨率为28×28像素；
Fashion＼|MNIST数据集比MNIST数据集（MNIST数据集是一个计算机视觉数据集，它包含70 000张手写数字的灰度图片，每一张图片包含28×28个像素点）更复杂，能更好地表示神经网络的实际性能和实际应用中使用的数据集。SVHN数据集是从谷歌街景图像中的门牌号码中获得的，都是10分类问题，每张图片包含一组数字（0～9）。数据集和模型统计信息如表1所示。

4.1.2 实验设置

实验中，FL系统的默认设置如表2所示。客户端本地数据训练使用随机梯度下降优化器进行优化，动量参数设置为0.5，损失函数为交叉熵损失函数。客户端本地数据训练中使用CNN模型，其网络结构如表3所示。

4.1.3 实验评价指标

本文采用测试集客户端数据的平均测试准确率作为算法性能的评价指标。

4.2 对比实验结果

为了评估LMRCFL算法的性能，分别在CIFAR＼|10、Fashion＼|MNIST和SVHN数据集上进行了实验，并与其他联邦学习算法进行了比较。FedProx是基于联邦平均算法FedAvg算法，在优化目标中增加了一个近端项限制本地模型与全局模型的优化差距，以此减小本地模型的漂移，这是解决联邦学习中Non＼|IID问题的一个典型方法。PACFL通过分析客户端数据子空间之间的主要角度，有效地识别客户端之间的分布相似性，并形成集群。通过聚类联邦学习解决数据异构性问题。

表4给出了4种算法在Non＼|IID数据集上第400轮训练时获得的准确率对比结果，表5给出了4种算法在Non＼|IID数据集上的最佳准确率（Best Accuracy）对比结果。实验结果表明，结合了层次聚类算法和近端项方法在不同数据集及数据异构的情况下，所提出算法比FedAvg算法、FedProx算法和PACFL算法得到一个更好的全局模型。LMRCFL方法在CIFAR＼|10、Fashion＼|MNIST、SVHN数据集上比其他的方法准确率都有所提高，从图1、图2、图3可以看出，LMRCFL方法的测试集准确率变化曲线基本都能处于其他算法之上，说明LMRCFL方法在Non＼|IID设置下能发挥积极作用。

各算法在α=0.1时，实验准确率随训练轮次的变化趋势如图1至图3所示，从中可以看出LMRCFL算法具有更快的收敛速度，获得的最终准确率也最高，证明了本文提出模型的有效性；
相较于其他，LMRCFL算法每次局部更新时结合了层次聚类算法和近端项方法的更新程度，因此算法的每次变化更稳定，准确率远高于FedAvg算法、FedProx算法和PACFL算法，FedProx算法和PACFL算法在学习的过程中准确率波动较大，其中PACFL算法在CIFAR＼|10和SHVN数据集上的准确率波动比较大，在Fashion＼|MNIST数据集上的准确率表现相对稳定，并且性能较好。

4.3 消融实验

LMRCF算法分为两个部分：一是全局模型更新时通过层次聚类法找到数据分布相似的客户端，将其划分为一个簇，减少了客户端之间Non＼|IID的范围；
二是本地客户端局部更新时通过正则化本地损失函数获得泛化性能更好的全局模型。为了验证基于层次聚类的个性化联邦学习的有效性，本文在CIFAR＼|10、Fashion＼|MNIST和SVHN数据集上进行了消融实验。实验结果如图4至图6所示，从中可以看出CLUSTER10表示将客户端数量聚为10类，CLUSTER5表示将客户端数量聚为5类，CLUSTER1表示没有聚类，只添加了正则化时的联邦学习方法。

实验结果表明，各种聚类方法都比FedAvg方法的效果好，说明聚类对测试准确率和客户端数据的平均准确率有影响，结合使用聚类方法有助于解决Non＼|IID问题。在Fashion＼|MNIST数据集和SVHN数据集上不同的聚类方法没有很大的区别。在CIFAR＼|10数据集上聚成10类的效果明显好于聚成5类的效果，让每一簇的客户端数量更多，学到的知识更好。

4.4 Non＼|iid强度的对比

在Fashion＼|MNIST、SVHN数据集上对不同Non＼|IID强度条件下获得的准确率进行了对比，如图7和图8所示，狄利克雷分布系数（dir）越小，异质性越强，狄利克雷分布系数（dir）越大，异质性越弱，对比两种异质性的强度，最终结果是相似的，不管环境如何变化，本文所提方法在不同的狄利克雷分布系数下，准确率结果也比较相近，进一步证明了LMRCFL方法具有鲁棒性。

5 结论（Conclusion）

为了解决联邦学习训练中非独立同分布数据的异构问题，本文提出了一种新的联邦学习框架，从全局模型聚合和局部更新两个方面改进了算法，客户端数据全局聚合时使用层次聚类法进行优化，在局部更新时加入正则化惩罚项修正本地损失函数。结果表明，聚类对测试准确率和客户端数据的平均准确率有影响，结合聚类方法和正则化惩罚项有助于提高算法的有效性，同时具有更好的鲁棒性。在未来的研究中，将持续开展算法的理论研究并证明其收敛性，设计性能更好的联邦学习算法，以可视化聚类联邦学习的公平性，从而解决客户端设备异构的问题。

参考文献（References）[HJ1.35mm]

［1］ MOTHUKURI V，PARIZI R M，POURIYEH S，et al. A survey on security and privacy of federated learning［J］. Future generation computer systems，2021，115：619＼|640.

［2］ LI T，SAHU A K，TALWALKAR A，et al. Federated learning：challenges，methods，and future directions［J］. IEEE signal processing magazine，2020，37（3）：50＼|60.

［3］肖雄，唐卓，肖斌，等. 联邦学习的隐私保护与安全防御研究综述［J］. 计算机学报，2023，46（5）：1019＼|1044.

［4］郭桂娟，田晖，皮慧娟，等. 面向非独立同分布数据的联邦学习研究进展［J］. 小型微型计算机系统，2023，44（11）：2442＼|2449.

［5］蓝梦婕，蔡剑平，孙岚. 非独立同分布数据下的自正则化联邦学习优化方法［J］. 计算机应用，2023，43（7）：2073＼|2081.

［6］ ZHU H Y，XU J J，LIU S Q，et al. Federated learning on non＼|IID data：a survey［J］. Neurocomputing，2021，465（C）：371＼|390.

［7］ ZHAO Z Y，FENG C Y，HONG W，et al. Federated learning with non＼|IID data in wireless networks［J］. IEEE transactions on wireless communications，2022，21（3）：1927＼|1942.

［8］ LI T，SAHU A K，ZAHEER M，et al. Federated optimization in heterogeneous networks［J］. Proceedings of machine learning and systems，2020，2：429＼|450.

［9］ KARIMIREDDY S P，KALE S，MOHRI M，et al. SCAFFOLD：stochastic controlled averaging for federated learning［DB/OL］. （2022＼|09＼|21）［2024＼|02＼|05］. https：∥arxiv.org/abs/1910.06378.

［10］ SATTLER F，MULLER K R，SAMEK W. Clustered federated learning：model＼|agnostic distributed multitask optimization under privacy constraints［J］. IEEE transactions on neural networks and learning systems，2021，32（8）：3710＼|3722.

［11］ GHOSH A，CHUNG J，YIN D，et al. An efficient framework for clustered federated learning［J］. IEEE transactions on information theory，2022，68（12）：8076＼|8091.

［12］常黎明，刘颜红，徐恕贞. 基于数据分布的聚类联邦学习［J］. 计算机应用研究，2023，40（6）：1697＼|1701.

［13］鲁晨阳，邓苏，马武彬，等. 基于DBSCAN聚类的集群联邦学习方法［J］. 计算机科学，2022，49（S1）：232＼|237.

［14］ MORAFAH M，VAHIDIAN S，WANG W J，et al. FLIS：clustered federated learning via inference similarity for non＼|IID data distribution［J］. IEEE open journal of the computer society，2023，4：109＼|120.

［15］ VAHIDIAN S，MORAFAH M，WANG W J，et al. Efficient distribution similarity identification in clustered federated learning via principal angles between client data subspaces［DB/OL］. （2022＼|09＼|21）［2023＼|12＼|25］. https：∥arxiv.org/abs/2209.10526.

［16］张婷，吴宇. 面向Non＼|IID场景的联邦学习客户端选择算法研究［J］. 东莞理工学院学报，2023，30（3）：24＼|31.

作者简介：

施玉倩（1997＼|），女，硕士生。研究领域：联邦学习，隐私保护。

巫朝霞（1975＼|），女，博士，教授。研究领域：信息安全。

猜你喜欢聚类基于K-means聚类的车-地无线通信场强研究铁道通信信号(2019年6期)2019-10-08基于DBSACN聚类算法的XML文档聚类电子测试(2017年15期)2017-12-18基于高斯混合聚类的阵列干涉SAR三维成像雷达学报(2017年6期)2017-03-26条纹颜色分离与聚类光学精密工程(2016年5期)2016-11-07基于Spark平台的K-means聚类算法改进及并行化实现互联网天地(2016年1期)2016-05-04局部子空间聚类自动化学报(2016年8期)2016-04-16基于最小圆覆盖的海上突发事件空间聚类研究管理现代化(2016年3期)2016-02-06基于改进的遗传算法的模糊聚类算法智能系统学报(2015年4期)2015-12-27一种层次初始的聚类个数自适应的聚类方法研究电子设计工程(2015年6期)2015-02-27基于熵权和有序聚类的房地产周期分析河南科技(2014年23期)2014-02-27

推荐访问:联邦最优化学习