读《GMC: Graph-based Multi-view Clustering》

时间：2023-04-20 17:37:00 gmc功率变送器sineax

摘要

基于多视图的聚类旨在为多视图数据提供聚类解决方案。然而，大多数现有的方法并没有充分考虑不同视图的权重，而是需要额外的聚类步骤来生成最终的聚类，甚至需要根据所有视图的固定图相似度矩阵来优化目标。
本文提出了基于图片的一般多视图聚类(GMC)解决这些问题。GMC获取所有视图的数据图矩阵，并将它们融合起来生成一个统一的图矩阵。统一的图矩阵进而改进了每个视图的数据图矩阵，并直接给出了最终的聚类。

一种新的多视图集成技术可以自动加权每个数据图矩阵，(有点类似于求和式的特征层融合？获得统一的图矩阵。图拉普拉斯矩阵也对统一矩阵的图拉普拉斯矩阵施加了不引入调整参数的秩序约束，这有助于自然地将数据点划分为所需的簇。提出了交替迭代优化算法，优化目标函数。

1.引言

多视图学习[1]，[2]

本文重点关注多视图无监督学习，特别是多视图聚类。与单视图聚类[3]和[4]相比，多视图聚类探索和利用来自多视图的互补信息来产生更准确、更强大的数据分区。

在多视图聚类方法中，基于图的方法是[5]、[6]、[7]、[8]、[9]、[10]、[11]和[12]。

聚类结果通常用于社区检测、推荐和信息检索等后续应用。

基于多视图的聚类方法通常首先在所有视图的输入图中找到一个融合图，然后使用额外的聚类算法来生成最终的聚类(依靠，这意味着小组中的想法是将单个对象的所有视图整合成一个集成图，通过聚类和其他方式划分视图和视图之间的节点关系，以获得对象的图，然后将这些图用于以下聚类和其他任务？。
尽管这些方法取得了最先进的性能，但它们仍有一些局限性。
首先，如[5]，不考虑不同视图的重要性差异(模态间关系没有区别吗？，因此，本文通过自动生成的权重来处理差异。
其次，许多现有的方法都需要一个额外的聚类步骤来在融合后生成最终的聚类，例如，[5]、[6]、[7]，而本文直接产生融合中的聚类，而没有额外的聚类步骤。
第三，目前，大多数方法都孤立地构建每个视图(也是决策层整合？，并在整合过程中保持构建图的固定（？），如[5]、[6]、[7]、[9]、[10]和[12]（？），两者自然可以互相帮助。

为什么要纠结这三个问题？首先，样本选择偏差导致视图多样性[13]。其次，额外的聚类步骤会带来额外的聚类步骤PAC（Probably
Approximately Correct边界[14]可能是正确的。第三，不同的相似度对多视图聚类质量有影响[15]。

本文提出了基于图的多视图聚类模型(GMC)表示。
GMC不仅可以自动加权每个视图，并在融合后直接生成最终的聚类，而无需执行任何额外的聚类步骤，而且还可以共同构建每个视图的图和融合图，使它们能够以相互强化的方式相互帮助（恁牛嘞）。
首先，每个视图的数据矩阵首先被转换为由相似性图矩阵生成的图矩阵，并记录为相似性诱导图(SIG)矩阵。
然后将提出的融合方法应用于所有视图SIG为了从SIG在矩阵中学习统一矩阵(即融合图矩阵)U。U学习会自动考虑不同的视图(v)的不同权重 $w_v)$ 。
同时，使用学习到的统一矩阵U，再对每一个视图SIG改进矩阵。拉普拉斯矩阵统一矩阵LU为了约束统一矩阵中连接重量的数量等于所需的簇数c。因此，GMC每个视图SIG矩阵进行了加权和改进，并同时生成统一的矩阵和最终的簇。

2.相关

多视图聚类[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]
[5]提出了一种基于三阶段图的多视图聚类方法，它使用子空间图表和层次凝聚方法，但不考虑不同视图的权重。
所以有[6]，[7]研究了基于加权图的多视图聚类，首先为每个视图生成一个图，然后通过K-means构建统一表示，生成最终簇。
[8]、[9]、[10]、[11]、[12]提出了更先进的加权方法。
然而，虽然这些方法在没有其他聚类算法的情况下产生最终的聚类，但它们是单独构建每个视图的图片(万恶之源决策层)，除了学习所有视图的全局图，而不是每个视图的[8]和[11]
除了上述方法中使用的成对相似矩阵集成外，[16]和[17]还提出了高阶相似矩阵（即数据簇相似矩阵）集成，即数据点和聚类中心之间的相似性。虽然可以避免成对相似矩阵中的高计算复杂性，但它们需要运行额外的聚类算法。

[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]
谱聚类以数据点为节点，根据相似性造边[21]，即谱聚类的输入是相似性图。
与基于图的聚类不同，谱聚类通常首先找到数据的低维嵌入表示，然后执行该嵌入表示K-means来生成最终的聚类。不过多视图谱聚类还需要在嵌入表示上进行额外的聚类步骤。
在构建的数据图上生成基于图的聚类，而不是新的嵌入表示

除了基于多视图的聚类和多视图谱聚类外，还有其他多视图聚类方法
大致可分为三类:协同训练聚类[19]、[26]、[27]、[27]、[28]、多核聚类[29]、[30]、[31]、[32]、多视图空间聚类[33]、[34]、[35]、[36]、[37]、[38]、[39]、[40]、[41]。
协同训练聚类采用协同训练策略[44]，引导不同视图的分区通过先验知识或学习知识迭代实施。所有视图的分区都将得到最广泛的共识。
多核聚类预定义了一组基核，然后以线性或非线性的方式组合这些内核，以提高聚类性能(听起来有点初级)
多视图空间聚类旨在从所有视图的特征子空间中学习统一表示，假设所有视图共享这个统一的表示。然后，将这个统一的表示输入到一个聚类模型中，以获得最终的结果。
协同训练的方法取决于条件的独立性，多核聚类的计算复杂性高，多视图空间聚类的方法对初始化非常敏感。

此外，还45]、[46]、[47]、[48]、[49]和[50]还研究了其他多视图学习方法和应用

3.基于图的多视图聚类

3.1 SIG矩阵构建

将相似矩阵转换为图最常用的方法是使用k-近邻图xj属于xi的k-最近的邻居，所以它们是连接的。边缘的权重通常由高斯核定义。缺点是由于数据中的噪声和异常值，很难设置超参数σ。

[51]研究发现，稀疏表明噪声和异常值是鲁棒的。构建视图SIG矩阵使两个数据点之间的小距离对应于大相似值，两个数据点之间的大距离对应于小(或零)相似值。为此，本文采用稀疏的表示方法构建SIG矩阵。

通过归一化束

独立构建每个视图SIG因为每一个，矩阵SIG与其它视图无关接下来再将每个SIG矩阵与一个统一的图矩阵耦合

3.2多数据图融合

（有点像矩阵补全的重构损失啊）
通过定理1保证权重w={w1，…wm}是自动确定的。

定理1。如果权值w固定，上面的优化问题等价于

对每个SIG矩阵S1、…，Sm和统一图矩阵U的学习被耦合成一个联合问题。这样，两者的学习就可以自然地互助。

3.3具有约束拉普拉斯秩的多视图聚类

接下来要解决直接在统一图矩阵U上生成聚类结果，而不需要额外的聚类算法或步骤这样的问题。对统一矩阵U的图拉普拉斯矩阵施加秩约束。
在图论中， $L_U=D_U−(U^T+U)/2$ 被称为图拉普拉斯矩阵(原本拉式矩阵应该是L=D-A，这里应该是通过U和A的关系推导出来的)，其中度矩阵DU是对角阵，第i个对角元素是 $\sum_{j}(u_{ij}+u_{ji})/2$ 。如果统一矩阵U是非负的，那么拉普拉斯矩阵有以下定理[53]，[54]。

定理2。拉普拉斯矩阵LU的特征值O的多重性r等于统一矩阵U的图中连通分量的个数。(?)

因此如果rank(LU)=n−c，c=r，则对应的U是将数据点直接划分为c簇的理想情况。
因此，不需要在统一矩阵U上做额外的聚类算法来生成最终的聚类。
于是增加了一个秩约束得到

但是因为LU依赖于目标变量U，而约束rank(LU)=n−c也是非线性的，这就很难办。
记ϑi(LU)为LU的第i小特征值。如果ϑi(LU)≥0则LU半正定[53]。然后，如果 $\sum^c_{i=1}ϑ_i(L_U)=0$ ，则可以获得约束rank(LU)=n−c。根据定理[55]，有

其中F是嵌入矩阵，是谱聚类的学习对象。于是有

当λ足够大时，最优解会保证 $\sum^c_{i=1}ϑ_i(L_U)=0$ 。

读《GMC: Graph-based Multi-view Clustering》

相关文章