论文阅读笔记:GMC Graph-Based Multi-View Clustering
时间:2023-04-20 17:07:00
论文阅读笔记:GMC: Graph-Based Multi-View Clustering
文章目录
- 论文阅读笔记:GMC: Graph-Based Multi-View Clustering
-
- 论文的主要贡献
- 论文的主要内容
-
- 摘要
- 2.1 Introduction
- 2.2 Related Work
- 2.3 GMC
- 2.4 实验设置
链接: GMC: Graph-Based Multi-View Clustering (readpaper.com)
论文主要贡献
基于图提出了一个通用的基础multi-view聚类方法(GMC),解决现有方法的一些限制。GMC自动加权每个视图,共同学习每个视图的图片和集成图,并在集成后立即生成最终的簇,无需引入其他视图spectral值得注意的是,每个视图的学习和整合图的学习可以相互加强。
论文的主要内容
摘要
基于多视图的图形聚类旨在为多视图数据提供聚类解决方案。然而,大多数现有的方法并没有充分考虑不同视图的权重,需要额外的聚类步骤来产生最终的聚类。
它们通常根据所有视图的固定图形相似性矩阵来优化其目标。在本文中,我们提出了基于图形的多视图聚类(GMC)解决这些问题。
GMC使用所有视图的数据图矩阵,并将其集成生成统一的图矩阵。统一的图矩阵反过来改进了每个视图的数据图矩阵,并直接给出了最终的聚类。
GMC关键的创新在于它的学习方法,它可以帮助每个视图矩阵的学习和统一的图矩阵的学习相互促进。新颖的多视图集成技术可以自动加权每个数据图矩阵,从而获得统一的图矩阵。
在统一矩阵的图拉普拉斯矩阵中,没有引入调整参数的等级限制,这有助于自然地将数据点划分为所需数量的集群。提出了一种交替迭代的优化算法来优化目标函数。玩具数据和真实世界数据的实验结果表明,该方法明显优于最先进的基线
2.1 Introduction
这里主要提到一些基于图片的现有内容multi-view主要有三个限制:
◆ 在某些方法中没有考虑不同的方法view权重问题在整合过程中的重要性差异;
◆ 许多现有的方法在融合后需要额外的聚类步骤来产生最终的聚类;
◆ 目前,大多数方法都是单独构建每个视图,并在整合过程中固定构造图。
针对上述三个限制,本文提出了相应的解决方案:
◆ 权重自动生成w;
◆ 对图中的拉普拉斯矩阵施加秩约束,自动生成聚类结果;
◆ 本文提出的方法是通过相互增强来构建每个视图和集成图。这里的相互增强反映在最终的目标函数中,稍后将介绍。
2.2 Related Work
基于图的聚类:这里的图是指图结构G(V,E),而不是图像。
图的表示:G(V,E)表示无向图,V是顶点集,表示样本点,E边集,边重w_ij表示样本点i和j的相似度。
图聚类:基于图的聚类可视为图G的划分,按照一定的标准将G划分为一系列不相交的子图G1,G2,G3…;
损失函数:Cut(G1,G2)= ∑_(i∈G1,j∈G2)?w_ij ,目标是以最低的成本将G划分为G1,G2.
谱聚类:与基于图的聚类的区别在于,谱聚类通常首先找到数据的低维嵌入表示,然后执行该嵌入表示的聚类算法(e.g. K-means)为了生成最终的聚类。谱聚类的关键是找到图表,一般流程为[1]:
◆ 确定相似度量标准,获得相似矩阵W;
◆ 拉普拉斯矩阵计算图L=D-W,D是对角矩阵;
◆ 计算L前k与最小特征值相对应的特征向量表示为节点向量;
◆ 采用聚类算法得出聚类结果。
2.3 GMC
GMC由三部分组成,SIG Matrix Construction,Multiple Data Graph Fusion,Laplacian Rank Constraint. 先看一下GMC最终目标函数,然后联系这三个部分。
目标函数:
(1)
其中,m, n视图数和样本点分别表示;Sv表示V视图的相似性诱导矩阵——the similarity-induced graph (SIG),相似度矩阵的稀疏表示;sijvI与样本点j在第v视图样本中的相似性;U表示fusion graph matrix;wv表示第v视角的权重;Lu是U的拉普拉斯矩阵;F辅助矩阵由U的特征向量组成。
Eq.(1)从data matrix X计算出similarity-induced graph;第二项是先验,如果只关注的话Eq.(1)第二项可视为每个数据点和xiv相似度值,即1/n;约束条件1Tsiv=1相当于约束Sv是稀疏的,假如只考虑xi最近的样本点xj,则sijv=1.其余为0;
Eq.(1)第三项是Multiple Data Graph Fusion,wv表示v视角的权重;可以看出,每一个SIG矩阵S1,…,Sm和矩阵U的学习被合并为一个联合问题,于是两者的学习可以自然地互相帮助,互相增强。
Eq.(1)第四项是对的Lu从一个重要的理论中,学习F的每一列都是聚类中心的向量表示:
Theorem 2. The multiplicity r of the eigenvalue 0 of the Laplacian matrix LU is equal to the number of connected components in the graph of the uni?ed matrix U. ——拉普拉斯矩阵LU特征值0的多重性r等于统一矩阵U图中连接重量的数量。
GMC流程:data matrix —>(similarity matrix)—> SIG(similarity-induced graph)<—>U(unified matrix)—>clustering result.
交替优化优化求解Sv,Wv,U,F。
2.4 实验设置
数据集:
[外链图片存储失败,源站可能有防盗链机制,建议保存图片直接上传(img-enxBUGBK-1647260849707)(https://s2.loli.net/2022/01/12/nQUJIVlmC79qOXh.png)]
n:样本数;m:视角数;c:聚类数;di:第一个视角维度
Baseline:
SK-means: Single view K-means
SNcut: Single view Normalized cut
MKC: Multi-view Kmeans Clustering
MultiNMF: Multi-view clustering via Non-negative Matrix Factorization
CoregSC: Co-regularized Spectral Clustering
MSC: Multi-view Spectral Clustering
ASMV: Adaptive Structure-based Multi-view clustering
MGL: Multiple Graph Learning
MCGL: Multi-view Clustering with Graph Learning
Evaluation:
g
MGL: Multiple Graph Learning
MCGL: Multi-view Clustering with Graph Learning
Evaluation:
ACC; NMI; ARI(adjusted rand index); F1 measure.