基于鸢尾花数据集的四种聚类算法(kmeans,层次聚类,DBSCAN,FCM)和学习向量量化对比

基于鸢尾花数据集的四种聚类算法(kmeans,层次聚类,DBSCAN,FCM)和学习向量量化对比

注:下面的代码可能需要做一点参数调整,才得到所有我的运行结果。

kmeans算法:

import matplotlib.pyplot as plt # 导入matplotlib的库
import numpy as np # 导入numpy的包
from sklearn import datasets #导入数据集
from sklearn.decomposition import PCA # PCA主成分分析类
from sklearn.metrics import silhouette_score
from sklearn.metrics import calinski_harabasz_score
from sklearn.metrics import davies_bouldin_score
iris = datasets.load_iris() #加载iris数据集
X = iris.data #加载特征数据
# Y = iris.target #加载标签数据
#绘制数据分布图
y = iris.target
X = iris.data
#X.shape
#调用PCA
pca = PCA(n_components=2) # 降到2维
pca = pca.fit(X) #拟合模型
X_dr = pca.transform(X) #获取新矩阵 (降维后的)
#X_dr



#也可以fit_transform一步到位
#X_dr = PCA(2).fit_transform(X)


#plt.figure()
#plt.scatter(X_dr[y==0, 0], X_dr[y==0, 1], c="red", label=iris.target_names[0]) 
#plt.scatter(X_dr[y==1, 0], X_dr[y==1, 1], c="black", label=iris.target_names[1])
#plt.scatter(X_dr[y==2, 0], X_dr[y==2, 1], c="orange", label=iris.target_names[2])
#plt.legend()
#plt.title('PCA of IRIS dataset')
#plt.show()


print("===K-means聚类===")
from sklearn.cluster import KMeans # 引入KMeans模块


estimator = KMeans(n_clusters=3).fit(X)  # 构造聚类器
label_pred = estimator.labels_  # 获取聚类标签

# 评估指标列表  
silhouette_avg_scores = []  
  
Calinski_Harabasz_scores = []  
Davies_Bouldin_scores = []  
# 遍历不同的n_clusters值  
for n_clusters in range(2, 11):  
    kmeans = KMeans(n_clusters=n_clusters)  
    kmeans.fit(X)  
    labels = kmeans.labels_  
    silhouette_avg = silhouette_score(X, kmeans.labels_)  
    print(silhouette_avg)
# 2. Calinski-Harabasz指数
    calinski_haraba=calinski_harabasz_score(X, kmeans.labels_)
    print(calinski_haraba)
 
    # 3. DB指数(Davies-Bouldin Index)
    davies_bouldin=davies_bouldin_score(X, kmeans.labels_)
    Davies_Bouldin_scores.append(davies_bouldin)
    Calinski_Harabasz_scores.append(calinski_haraba)
    silhouette_avg_scores.append(silhouette_avg)  
  
# 绘制图形  
plt.plot(range(2, 11), silhouette_avg_scores, marker='o', label='Silhouette Coefficient')  

plt.title('Silhouette Coefficient for Different n_clusters-kmeans')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Silhouette Coefficient')  
plt.legend()
plt.show()
 
plt.plot(range(2, 11), Calinski_Harabasz_scores, marker='o', label=' Calinski-Harabasz')  
plt.title(' Calinski-Harabaszfor Different n_clusters-kmeans')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Calinski Harabasz')  
plt.legend()
plt.show()

  
plt.plot(range(2, 11), Davies_Bouldin_scores, marker='o', label='Davies-Bouldin Index')  
plt.title('Davies-Bouldin Index for Different n_clusters-kmeans')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Davies-Bouldin Index')  
plt.legend()
plt.show()


运行结果如下:
在这里插入图片描述

DBSCAN:

import matplotlib.pyplot as plt # 导入matplotlib的库
import numpy as np # 导入numpy的包
from sklearn import datasets #导入数据集
from sklearn.decomposition import PCA # PCA主成分分析类
from sklearn.metrics import silhouette_score
from sklearn.metrics import calinski_harabasz_score
from sklearn.metrics import davies_bouldin_score

from sklearn.cluster import DBSCAN # 引入DBSCAN模块

iris = datasets.load_iris() #加载iris数据集
X = iris.data #加载特征数据
# Y = iris.target #加载标签数据
#绘制数据分布图
y = iris.target
X = iris.data
#X.shape
##调用PCA
#pca = PCA(n_components=2) # 降到2维
#pca = pca.fit(X) #拟合模型
#X_dr = pca.transform(X) #获取新矩阵 (降维后的)
##X_dr



#也可以fit_transform一步到位
#X_dr = PCA(2).fit_transform(X)


#plt.figure()
#plt.scatter(X_dr[y==0, 0], X_dr[y==0, 1], c="red", label=iris.target_names[0]) 
#plt.scatter(X_dr[y==1, 0], X_dr[y==1, 1], c="black", label=iris.target_names[1])
#plt.scatter(X_dr[y==2, 0], X_dr[y==2, 1], c="orange", label=iris.target_names[2])
#plt.legend()
#plt.title('PCA of IRIS dataset')
#plt.show()


print("===DBSCAN聚类===")
from sklearn.cluster import KMeans # 引入KMeans模块


estimator = KMeans(n_clusters=3).fit(X)  # 构造聚类器
label_pred = estimator.labels_  # 获取聚类标签

# 评估指标列表  
silhouette_avg_scores = []  
  
Calinski_Harabasz_scores = []  
Davies_Bouldin_scores = []  
# 遍历不同的n_clusters值  
for n_clusters in range(2, 11):  
    dbscan = DBSCAN(eps=0.4, min_samples=n_clusters).fit(X) #导入DBSCAN模块进行训练,在一个邻域的半径内min_samples数的邻域eps被认为是一个簇。请记住,初始点包含在min_samples中。
    label_pred = dbscan.labels_ # labels为每个数据的簇标签,不在任何“高密度”集群中的“noisy”样本返回-1
    silhouette_avg = silhouette_score(X, dbscan.labels_)  
    print(silhouette_avg)

  
 
# 2. Calinski-Harabasz指数
   
    calinski_haraba=calinski_harabasz_score(X, dbscan.labels_)
    print(calinski_haraba)
 
    # 3. DB指数(Davies-Bouldin Index)
    davies_bouldin=davies_bouldin_score(X, dbscan.labels_)
    Davies_Bouldin_scores.append(davies_bouldin)
    Calinski_Harabasz_scores.append(calinski_haraba)
    silhouette_avg_scores.append(silhouette_avg)  
  
# 绘制图形  
plt.plot(range(2, 11), silhouette_avg_scores, marker='o', label='Silhouette Coefficient')  

plt.title('Silhouette Coefficient for Different min_samples-DBSCAN-eps=0.4')  
plt.xlabel('Number of min_samples (min_samples)')  
plt.ylabel('Silhouette Coefficient')  
plt.legend()
plt.show()
 
plt.plot(range(2, 11), Calinski_Harabasz_scores, marker='o', label=' Calinski-Harabasz')  
plt.title('Calinski-Harabasz for Different min_samples-DBSCAN-eps=0.4')  
plt.xlabel('Number of min_samples (min_samples)')  
plt.ylabel('Calinski Harabasz')  
plt.legend()
plt.show()

  
plt.plot(range(2, 11), Davies_Bouldin_scores, marker='o', label='Davies-Bouldin Index')  
plt.title('Davies-Bouldin Index for Different min_samples-DBSCAN-eps=0.4')  
plt.xlabel('Number of min_samples (min_samples)')  
plt.ylabel('Davies-Bouldin Index')  
plt.legend()
plt.show()



# 评估指标列表  
silhouette_avg_scores = []  
  
Calinski_Harabasz_scores = []  
Davies_Bouldin_scores = []  

xindex= [0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1,1.1,1.2,1.4,1.6]
for s in xindex:  
    print(s)
    dbscan = DBSCAN(eps=s, min_samples=3).fit(X) #导入DBSCAN模块进行训练,在一个邻域的半径内min_samples数的邻域eps被认为是一个簇。请记住,初始点包含在min_samples中。
    label_pred = dbscan.labels_ # labels为每个数据的簇标签,不在任何“高密度”集群中的“noisy”样本返回-1
    silhouette_avg = silhouette_score(X, dbscan.labels_)  
    print(silhouette_avg)

  
 
# 2. Calinski-Harabasz指数
   
    calinski_haraba=calinski_harabasz_score(X, dbscan.labels_)
    print(calinski_haraba)
 
    # 3. DB指数(Davies-Bouldin Index)
    davies_bouldin=davies_bouldin_score(X, dbscan.labels_)
    Davies_Bouldin_scores.append(davies_bouldin)
    Calinski_Harabasz_scores.append(calinski_haraba)
    silhouette_avg_scores.append(silhouette_avg)  
  
# 绘制图形  
plt.plot(xindex, silhouette_avg_scores, marker='o', label='Silhouette Coefficient')  

plt.title('Silhouette Coefficient for Different min_samples-DBSCAN- min_samples=3')  
plt.xlabel('eps')  
plt.ylabel('Silhouette Coefficient')  
plt.legend()
plt.show()
 
plt.plot(xindex, Calinski_Harabasz_scores, marker='o', label=' Calinski-Harabasz')  
plt.title('Calinski-Harabasz for Different min_samples-DBSCAN- min_samples=3')  
plt.xlabel('eps')  
plt.ylabel('Calinski Harabasz')  
plt.legend()
plt.show()

  
plt.plot(xindex, Davies_Bouldin_scores, marker='o', label='Davies-Bouldin Index')  
plt.title('Davies-Bouldin Index for Different min_samples-DBSCAN- min_samples=3')  
plt.xlabel('eps')  
plt.ylabel('Davies-Bouldin Index')  
plt.legend()
plt.show()


运行结果:
在这里插入图片描述
在这里插入图片描述层次聚类:

import matplotlib.pyplot as plt # 导入matplotlib的库
import numpy as np # 导入numpy的包
from sklearn import datasets #导入数据集
from sklearn.decomposition import PCA # PCA主成分分析类
from sklearn.metrics import silhouette_score
from sklearn.metrics import calinski_harabasz_score
from sklearn.metrics import davies_bouldin_score

from sklearn.cluster import AgglomerativeClustering
iris = datasets.load_iris() #加载iris数据集
X = iris.data #加载特征数据
# Y = iris.target #加载标签数据
#绘制数据分布图
y = iris.target
X = iris.data
#X.shape
#调用PCA
pca = PCA(n_components=2) # 降到2维
pca = pca.fit(X) #拟合模型
X_dr = pca.transform(X) #获取新矩阵 (降维后的)
#X_dr



#也可以fit_transform一步到位
#X_dr = PCA(2).fit_transform(X)


#plt.figure()
#plt.scatter(X_dr[y==0, 0], X_dr[y==0, 1], c="red", label=iris.target_names[0]) 
#plt.scatter(X_dr[y==1, 0], X_dr[y==1, 1], c="black", label=iris.target_names[1])
#plt.scatter(X_dr[y==2, 0], X_dr[y==2, 1], c="orange", label=iris.target_names[2])
#plt.legend()
#plt.title('PCA of IRIS dataset')
#plt.show()


print("===K-means聚类===")
from sklearn.cluster import KMeans # 引入KMeans模块


estimator = KMeans(n_clusters=3).fit(X)  # 构造聚类器
label_pred = estimator.labels_  # 获取聚类标签

# 评估指标列表  
silhouette_avg_scores = []  
  
Calinski_Harabasz_scores = []  
Davies_Bouldin_scores = []  
# 遍历不同的n_clusters值  
for n_clusters in range(2, 11):  
    agg = AgglomerativeClustering( n_clusters=n_clusters)
    agg.fit(X)  
    labels = agg.labels_  
    silhouette_avg = silhouette_score(X, agg.labels_)  
# 2. Calinski-Harabasz指数
    calinski_haraba=calinski_harabasz_score(X, agg.labels_)
 
    # 3. DB指数(Davies-Bouldin Index)
    davies_bouldin=davies_bouldin_score(X, agg.labels_)
    Davies_Bouldin_scores.append(davies_bouldin)
    Calinski_Harabasz_scores.append(calinski_haraba)
    silhouette_avg_scores.append(silhouette_avg)  
  
# 绘制图形  
plt.plot(range(2, 11), silhouette_avg_scores, marker='o', label='Silhouette Coefficient')  

plt.title('Silhouette Coefficient for Different n_clusters-AgglomerativeClustering')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Silhouette Coefficient')  
plt.legend()
plt.show()
 
plt.plot(range(2, 11), Calinski_Harabasz_scores, marker='o', label=' Calinski-Harabasz')  
plt.title(' Calinski-Harabaszfor Different n_clusters-AgglomerativeClustering')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Calinski Harabasz')  
plt.legend()
plt.show()

  
plt.plot(range(2, 11), Davies_Bouldin_scores, marker='o', label='Davies-Bouldin Index')  
plt.title('Davies-Bouldin Index for Different n_clusters-AgglomerativeClustering')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Davies-Bouldin Index')  
plt.legend()
plt.show()


运行结果:
在这里插入图片描述
FCM算法:

代码:

import matplotlib.pyplot as plt # 导入matplotlib的库
import numpy as np # 导入numpy的包
from sklearn import datasets #导入数据集
from sklearn.decomposition import PCA # PCA主成分分析类
from sklearn.metrics import silhouette_score
from sklearn.metrics import calinski_harabasz_score
from sklearn.metrics import davies_bouldin_score
from sklearn.cluster import FeatureAgglomeration
from sklearn.cluster import AgglomerativeClustering
iris = datasets.load_iris() #加载iris数据集
X = iris.data #加载特征数据
# Y = iris.target #加载标签数据
#绘制数据分布图
y = iris.target
X = iris.data
#X.shape
#调用PCA
pca = PCA(n_components=2) # 降到2维
pca = pca.fit(X) #拟合模型
X_dr = pca.transform(X) #获取新矩阵 (降维后的)
#X_dr



#也可以fit_transform一步到位
#X_dr = PCA(2).fit_transform(X)


#plt.figure()
#plt.scatter(X_dr[y==0, 0], X_dr[y==0, 1], c="red", label=iris.target_names[0]) 
#plt.scatter(X_dr[y==1, 0], X_dr[y==1, 1], c="black", label=iris.target_names[1])
#plt.scatter(X_dr[y==2, 0], X_dr[y==2, 1], c="orange", label=iris.target_names[2])
#plt.legend()
#plt.title('PCA of IRIS dataset')
#plt.show()


print("===K-means聚类===")
from sklearn.cluster import KMeans # 引入KMeans模块
def FCM(X, c_clusters=3, m=2, eps=10):
    membership_mat = np.random.random((len(X), c_clusters))   # 生成随机二维数组shape(150,3),随机初始化隶属矩阵
    # 这一步的操作是为了使Xi的隶属度总和为1
    membership_mat = np.divide(membership_mat, np.sum(membership_mat, axis=1)[:, np.newaxis])

    while True:
        working_membership_mat = membership_mat ** m   # shape->(150,3)
        # 根据公式计算聚类中心点Centroids.shape->(3,4)
        Centroids = np.divide(np.dot(working_membership_mat.T, X), np.sum(working_membership_mat.T, axis=1)[:, np.newaxis])

        # 该矩阵保存所有实点到每个聚类中心的欧式距离
        n_c_distance_mat = np.zeros((len(X), c_clusters)) # shape->(150,3)
        for i, x in enumerate(X):
            for j, c in enumerate(Centroids):
                n_c_distance_mat[i][j] = np.linalg.norm(x-c, 2)   # 计算l2范数(欧氏距离)

        new_membership_mat = np.zeros((len(X), c_clusters))

        # 根据公式计算模糊矩阵U
        for i, x in enumerate(X):
            for j, c in enumerate(Centroids):
                new_membership_mat[i][j] = 1. / np.sum((n_c_distance_mat[i][j] / n_c_distance_mat[i]) ** (2 / (m-1)))
        if np.sum(abs(new_membership_mat - membership_mat)) < eps:
            break
        membership_mat = new_membership_mat
    return np.argmax(new_membership_mat, axis=1)



# 评估指标列表  
silhouette_avg_scores = []  
  
Calinski_Harabasz_scores = []  
Davies_Bouldin_scores = []  
# 遍历不同的n_clusters值  
for n_clusters in range(2, 11):  
    print(n_clusters)
    fcm =FCM(X, c_clusters=n_clusters)
  
    print(len(fcm ))
    silhouette_avg = silhouette_score(X, fcm)  
    print(silhouette_avg)
# 2. Calinski-Harabasz指数
    calinski_haraba=calinski_harabasz_score(X, fcm)
    print(calinski_haraba)
 
    # 3. DB指数(Davies-Bouldin Index)
    davies_bouldin=davies_bouldin_score(X,fcm)
    Davies_Bouldin_scores.append(davies_bouldin)
    Calinski_Harabasz_scores.append(calinski_haraba)
    silhouette_avg_scores.append(silhouette_avg)  
  
# 绘制图形  
plt.plot(range(2, 11), silhouette_avg_scores, marker='o', label='Silhouette Coefficient')  

plt.title('Silhouette Coefficient for Different n_clusters-FCM')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Silhouette Coefficient')  
plt.legend()
plt.show()
 
plt.plot(range(2, 11), Calinski_Harabasz_scores, marker='o', label=' Calinski-Harabasz')  
plt.title(' Calinski-Harabaszfor Different n_clusters-FCM')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Calinski Harabasz')  
plt.legend()
plt.show()

  
plt.plot(range(2, 11), Davies_Bouldin_scores, marker='o', label='Davies-Bouldin Index')  
plt.title('Davies-Bouldin Index for Different n_clusters-FCM')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Davies-Bouldin Index')  
plt.legend()
plt.show()


在这里插入图片描述
lvp算法:

import matplotlib.pyplot as plt # 导入matplotlib的库
import numpy as np # 导入numpy的包
from sklearn import datasets #导入数据集
from sklearn.decomposition import PCA # PCA主成分分析类
from sklearn.metrics import silhouette_score
from sklearn.metrics import calinski_harabasz_score
from sklearn.metrics import davies_bouldin_score
from sklearn.cluster import FeatureAgglomeration
from sklearn.cluster import AgglomerativeClustering

 
# 使用LVQ进行聚类
from sklearn_lvq import GlvqModel
 


iris = datasets.load_iris() #加载iris数据集
X = iris.data #加载特征数据
# Y = iris.target #加载标签数据
#绘制数据分布图
y = iris.target
X = iris.data
#X.shape
#调用PCA
pca = PCA(n_components=2) # 降到2维
pca = pca.fit(X) #拟合模型
X_dr = pca.transform(X) #获取新矩阵 (降维后的)
#X_dr



#也可以fit_transform一步到位
#X_dr = PCA(2).fit_transform(X)


#plt.figure()
#plt.scatter(X_dr[y==0, 0], X_dr[y==0, 1], c="red", label=iris.target_names[0]) 
#plt.scatter(X_dr[y==1, 0], X_dr[y==1, 1], c="black", label=iris.target_names[1])
#plt.scatter(X_dr[y==2, 0], X_dr[y==2, 1], c="orange", label=iris.target_names[2])
#plt.legend()
#plt.title('PCA of IRIS dataset')
#plt.show()
def FCM(X, c_clusters=3, m=2, eps=10):
    membership_mat = np.random.random((len(X), c_clusters))   # 生成随机二维数组shape(150,3),随机初始化隶属矩阵
    # 这一步的操作是为了使Xi的隶属度总和为1
    membership_mat = np.divide(membership_mat, np.sum(membership_mat, axis=1)[:, np.newaxis])

    while True:
        working_membership_mat = membership_mat ** m   # shape->(150,3)
        # 根据公式计算聚类中心点Centroids.shape->(3,4)
        Centroids = np.divide(np.dot(working_membership_mat.T, X), np.sum(working_membership_mat.T, axis=1)[:, np.newaxis])

        # 该矩阵保存所有实点到每个聚类中心的欧式距离
        n_c_distance_mat = np.zeros((len(X), c_clusters)) # shape->(150,3)
        for i, x in enumerate(X):
            for j, c in enumerate(Centroids):
                n_c_distance_mat[i][j] = np.linalg.norm(x-c, 2)   # 计算l2范数(欧氏距离)

        new_membership_mat = np.zeros((len(X), c_clusters))

        # 根据公式计算模糊矩阵U
        for i, x in enumerate(X):
            for j, c in enumerate(Centroids):
                new_membership_mat[i][j] = 1. / np.sum((n_c_distance_mat[i][j] / n_c_distance_mat[i]) ** (2 / (m-1)))
        if np.sum(abs(new_membership_mat - membership_mat)) < eps:
            break
        membership_mat = new_membership_mat
    return np.argmax(new_membership_mat, axis=1)



# 评估指标列表  
silhouette_avg_scores = []  
  
Calinski_Harabasz_scores = []  
Davies_Bouldin_scores = []  
from sklearn.datasets import make_blobs

# 遍历不同的n_clusters值  
for n_clusters in range(2, 11):  
    print(n_clusters)
    zX, y_true = make_blobs(n_samples=150, centers=n_clusters, cluster_std=0.6, random_state=0)
    lvq = GlvqModel()
    lvq.fit(X, y_true)
 
    # 可视化聚类结果
    fcm = lvq.predict(X)
   
  
    print(len(fcm ))
    silhouette_avg = silhouette_score(X, fcm)  
    print(silhouette_avg)
# 2. Calinski-Harabasz指数
    calinski_haraba=calinski_harabasz_score(X, fcm)
    print(calinski_haraba)
 
    # 3. DB指数(Davies-Bouldin Index)
    davies_bouldin=davies_bouldin_score(X,fcm)
    Davies_Bouldin_scores.append(davies_bouldin)
    Calinski_Harabasz_scores.append(calinski_haraba)
    silhouette_avg_scores.append(silhouette_avg)  
  
# 绘制图形  
plt.plot(range(2, 11), silhouette_avg_scores, marker='o', label='Silhouette Coefficient')  

plt.title('Silhouette Coefficient for Different n_clusters--lvp')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Silhouette Coefficient')  
plt.legend()
plt.show()
 
plt.plot(range(2, 11), Calinski_Harabasz_scores, marker='o', label=' Calinski-Harabasz')  
plt.title(' Calinski-Harabaszfor Different n_clusters--lvp')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Calinski Harabasz')  
plt.legend()
plt.show()

  
plt.plot(range(2, 11), Davies_Bouldin_scores, marker='o', label='Davies-Bouldin Index')  
plt.title('Davies-Bouldin Index for Different n_clusters-lvp')  
plt.xlabel('Number of clusters (n_clusters)')  
plt.ylabel('Davies-Bouldin Index')  
plt.legend()
plt.show()


在这里插入图片描述
最后我们还做了一个所有算法最优参数汇总的代码:

import matplotlib.pyplot as plt # 导入matplotlib的库
import numpy as np # 导入numpy的包
from sklearn import datasets #导入数据集
from sklearn.decomposition import PCA # PCA主成分分析类
iris = datasets.load_iris() #加载iris数据集
X = iris.data #加载特征数据
# Y = iris.target #加载标签数据
#绘制数据分布图
y = iris.target
X = iris.data
#X.shape
#调用PCA
pca = PCA(n_components=2) # 降到2维
pca = pca.fit(X) #拟合模型
X_dr = pca.transform(X) #获取新矩阵 (降维后的)
#X_dr



#也可以fit_transform一步到位
X_dr = PCA(2).fit_transform(X)


plt.figure()
plt.scatter(X_dr[y==0, 0], X_dr[y==0, 1], c="red", label=iris.target_names[0]) 
plt.scatter(X_dr[y==1, 0], X_dr[y==1, 1], c="black", label=iris.target_names[1])
plt.scatter(X_dr[y==2, 0], X_dr[y==2, 1], c="orange", label=iris.target_names[2])
plt.legend()
plt.title('PCA of IRIS dataset')
plt.show()


print("===K-means聚类===")
from sklearn.cluster import KMeans # 引入KMeans模块
estimator = KMeans(n_clusters=3).fit(X)  # 构造聚类器
label_pred = estimator.labels_  # 获取聚类标签
#绘制k-means结果
x0 = X_dr[label_pred == 0]# 获取聚类标签等于0的话,则赋值给x0
x1 = X_dr[label_pred == 1]# 获取聚类标签等于1的话,则赋值给x1
x2 = X_dr[label_pred == 2]# 获取聚类标签等于2的话,则赋值给x2
plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o', label='label 0')#画label 0的散点图
plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*', label='label 1')#画label 1的散点图
plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='+', label='label 2')#画label 2的散点图
plt.xlabel('K-means')# 设置X轴的标签为K-means
# plt.legend(loc=2)# 设置图标在左上角
plt.title("kmeans+PCA")
plt.show()


x0 = X[label_pred == 0]# 获取聚类标签等于0的话,则赋值给x0
x1 = X[label_pred == 1]# 获取聚类标签等于1的话,则赋值给x1
x2 = X[label_pred == 2]# 获取聚类标签等于2的话,则赋值给x2
plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o', label='label 0')#画la

plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*', label='label 1')#画label 1的散点图
plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='+', label='label 2')#画label 2的散点图
plt.xlabel('K-means')# 设置X轴的标签为K-means
# plt.legend(loc=2)# 设置图标在左上角
plt.title("kmeans-features[0:2]")
plt.show()


#密度聚类之DBSCAN算法
print("===DBSCAN聚类===")
from sklearn.cluster import DBSCAN # 引入DBSCAN模块
dbscan = DBSCAN(eps=1.0, min_samples=3).fit(X) #导入DBSCAN模块进行训练,在一个邻域的半径内min_samples数的邻域eps被认为是一个簇。请记住,初始点包含在min_samples中。
label_pred = dbscan.labels_ # labels为每个数据的簇标签,不在任何“高密度”集群中的“noisy”样本返回-1

x0 = X[label_pred == 0] # 获取聚类标签等于0的话,则赋值给x0
x1 = X[label_pred == 1] # 获取聚类标签等于1的话,则赋值给x1
x2 = X[label_pred == 2] # 获取聚类标签等于2的话,则赋值给x2
plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o', label='label0') # 画label 0的散点图
plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*', label='label1') # 画label 1的散点图
plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='+', label='label2') # 画label 2的散点图
plt.xlabel('DBSCAN')# 设置X轴的标签为DBSCAN
plt.legend(loc=2)# 设置图标在左上角
plt.title("DBSCAN-features[0:2]")
plt.show()



x0 = X_dr[label_pred == 0]# 获取聚类标签等于0的话,则赋值给x0
x1 = X_dr[label_pred == 1]# 获取聚类标签等于1的话,则赋值给x1
x2 = X_dr[label_pred == 2]# 获取聚类标签等于2的话,则赋值给x2
plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o', label='label 0')#画label 0的散点图
plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*', label='label 1')#画label 1的散点图
plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='+', label='label 2')#画label 2的散点图
plt.xlabel('DBSCAN')# 设置X轴的标签为K-means
# plt.legend(loc=2)# 设置图标在左上角
plt.title("DBSCAN+PCA")
plt.show()
from sklearn_lvq import GlvqModel

import numpy as np
from matplotlib import pyplot as plt
from scipy.cluster.hierarchy import dendrogram
from scipy.cluster.hierarchy import linkage, dendrogram
def getLinkageMat(model):
    children = model.children_
    cs = np.zeros(len(children))
    N = len(model.labels_)
    for i,child in enumerate(children):
        count = 0
        for idx in child:
            count += 1 if idx < N else cs[idx - N]
        cs[i] = count
    return np.column_stack([children, model.distances_, cs])

from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets import make_blobs

model = AgglomerativeClustering( n_clusters=3)

model = model.fit(X)

label_pred = model.labels_ # labels为每个数据的簇标签,不在任何“高密度”集群中的“noisy”样本返回-1

Z = linkage(X, method='ward', metric='euclidean')
p = dendrogram(Z, 0)
plt.show()



x0 = X_dr[label_pred == 0]# 获取聚类标签等于0的话,则赋值给x0
x1 = X_dr[label_pred == 1]# 获取聚类标签等于1的话,则赋值给x1
x2 = X_dr[label_pred == 2]# 获取聚类标签等于2的话,则赋值给x2
plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o', label='label 0')#画label 0的散点图
plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*', label='label 1')#画label 1的散点图
plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='+', label='label 2')#画label 2的散点图
plt.xlabel('AgglomerativeClustering')# 设置X轴的标签为K-means
# plt.legend(loc=2)# 设置图标在左上角
plt.title("AgglomerativeClustering+PCA")
plt.show()

def FCM(X, c_clusters=3, m=2, eps=10):
    membership_mat = np.random.random((len(X), c_clusters))   # 生成随机二维数组shape(150,3),随机初始化隶属矩阵
    # 这一步的操作是为了使Xi的隶属度总和为1
    membership_mat = np.divide(membership_mat, np.sum(membership_mat, axis=1)[:, np.newaxis])

    while True:
        working_membership_mat = membership_mat ** m   # shape->(150,3)
        # 根据公式计算聚类中心点Centroids.shape->(3,4)
        Centroids = np.divide(np.dot(working_membership_mat.T, X), np.sum(working_membership_mat.T, axis=1)[:, np.newaxis])

        # 该矩阵保存所有实点到每个聚类中心的欧式距离
        n_c_distance_mat = np.zeros((len(X), c_clusters)) # shape->(150,3)
        for i, x in enumerate(X):
            for j, c in enumerate(Centroids):
                n_c_distance_mat[i][j] = np.linalg.norm(x-c, 2)   # 计算l2范数(欧氏距离)

        new_membership_mat = np.zeros((len(X), c_clusters))

        # 根据公式计算模糊矩阵U
        for i, x in enumerate(X):
            for j, c in enumerate(Centroids):
                new_membership_mat[i][j] = 1. / np.sum((n_c_distance_mat[i][j] / n_c_distance_mat[i]) ** (2 / (m-1)))
        if np.sum(abs(new_membership_mat - membership_mat)) < eps:
            break
        membership_mat = new_membership_mat
    return np.argmax(new_membership_mat, axis=1)

fcm =FCM(X, c_clusters=3)


x0 = X_dr[fcm == 0]# 获取聚类标签等于0的话,则赋值给x0
x1 = X_dr[fcm == 1]# 获取聚类标签等于1的话,则赋值给x1
x2 = X_dr[fcm == 2]# 获取聚类标签等于2的话,则赋值给x2
plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o', label='label 0')#画label 0的散点图
plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*', label='label 1')#画label 1的散点图
plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='+', label='label 2')#画label 2的散点图
plt.xlabel('FCM')# 设置X轴的标签为K-means
# plt.legend(loc=2)# 设置图标在左上角
plt.title("FCM+PCA")
plt.show()

zX, y_true = make_blobs(n_samples=150, centers=2, cluster_std=0.6, random_state=0)
lvq = GlvqModel()
lvq.fit(X, y)
 
    # 可视化聚类结果
lvqp = lvq.predict(X)




x0 = X_dr[lvqp == 0]# 获取聚类标签等于0的话,则赋值给x0
x1 = X_dr[lvqp == 1]# 获取聚类标签等于1的话,则赋值给x1
x2 = X_dr[lvqp == 2]# 获取聚类标签等于2的话,则赋值给x2
plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o', label='label 0')#画label 0的散点图
plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*', label='label 1')#画label 1的散点图
plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='+', label='label 2')#画label 2的散点图
plt.xlabel('lvq')# 设置X轴的标签为K-means
# plt.legend(loc=2)# 设置图标在左上角
plt.title("lvq+PCA")
plt.show()

运行结果:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/610815.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从面试官视角出发,聊聊产品经理的面试攻略

一、请进行自我介绍 这题基本是面试的开胃菜了&#xff0c;估计面试多的&#xff0c;自己答案都能倒背如流啦。 其实自我介绍还是蛮重要的&#xff0c;对我来说主要有 3 个作用&#xff1a;面试准备、能力预估、思维评估。 面试准备&#xff1a;面试官每天都要面 3 ~6 人&am…

嵌入式C语言高级教程:实现基于STM32的智能水质监测系统

智能水质监测系统可以实时监控水体的质量&#xff0c;对于环境保护和水资源管理具有重要意义。本教程将指导您如何在STM32微控制器上实现一个基本的智能水质监测系统。 一、开发环境准备 硬件要求 微控制器&#xff1a;STM32F303K8&#xff0c;因其高精度模拟特性而被选用。…

嵌入式C语言高级教程:实现基于STM32的智能照明系统

智能照明系统不仅可以自动调节光源的亮度和色温&#xff0c;还可以通过感应用户的行为模式来优化能源消耗。本教程将指导您如何在STM32微控制器上实现一个基本的智能照明系统。 一、开发环境准备 硬件要求 微控制器&#xff1a;STM32F103RET6&#xff0c;具有足够的处理能力…

苹果再失资深设计师,Jony Ive 团队基本离开;OpenAI 或于下周发布 AI 搜索丨 RTE 开发者日报 Vol.201

开发者朋友们大家好&#xff1a; 这里是 「RTE 开发者日报」 &#xff0c;每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE&#xff08;Real Time Engagement&#xff09; 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

测试环境搭建整套大数据系统(十六:超级大文件处理遇到的问题)

一&#xff1a;yarn出现损坏的nodemanger 报错现象 日志&#xff1a;1/1 local-dirs usable space is below configured utilization percentage/no more usable space [ /opt/hadoop-3.2.4/data/nm-local-dir : used space above threshold of 90.0% ] ; 1/1 log-dirs usabl…

【SRC实战】合成类小游戏外挂漏洞

挖个洞先 https://mp.weixin.qq.com/s/ZnaRn222xJU0MQxWoRaiJg “以下漏洞均为实验靶场&#xff0c;如有雷同&#xff0c;纯属巧合” 合成类小游戏三个特点&#xff1a; 1、一关比一关难&#xff0c;可以参考“羊了个羊” 2、无限关卡无限奖励&#xff0c;可以参考“消灭星星…

【Qt 学习笔记】Qt常用控件 | 多元素控件 | List Widget的说明及介绍

博客主页&#xff1a;Duck Bro 博客主页系列专栏&#xff1a;Qt 专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ Qt常用控件 | 多元素控件 | List Widget的说明及介绍 文章编号&#x…

【Java代码审计】代码审计的方法及常用工具

【Java代码审计】代码审计的方法及常用工具 代码审计的常用思路代码审计辅助工具代码编辑器测试工具反编译工具Java 代码静态扫描工具 代码审计的常用思路 1、接口排查&#xff08;“正向追踪”&#xff09;&#xff1a;先找出从外部接口接收的参数&#xff0c;并跟踪其传递过…

ICode国际青少年编程竞赛- Python-3级训练场-综合练习3

ICode国际青少年编程竞赛- Python-3级训练场-综合练习3 1、 for i in range(10):if i < 2 or i > 7: Flyer[i].step(1) Dev.step(Dev.y - Item[0].y)2、 for i in range(8):if i < 3 or i > 4:Spaceship.turnRight()else:Spaceship.turnLeft()Spaceship.step(i …

VBA_NZ系列工具NZ06:VBA创建PDF文件说明

我的教程一共九套及VBA汉英手册一部&#xff0c;分为初级、中级、高级三大部分。是对VBA的系统讲解&#xff0c;从简单的入门&#xff0c;到数据库&#xff0c;到字典&#xff0c;到高级的网抓及类的应用。大家在学习的过程中可能会存在困惑&#xff0c;这么多知识点该如何组织…

InLine Chat功能优化对标Github Copilot,CodeGeeX带来更高效、更直观的编程体验!

VSCode中的CodeGeeX 插件上线InLine Chat功能后&#xff0c;收到不少用户的反馈&#xff0c;大家对行内交互编程这一功能非常感兴趣。近期我们针对这个功能再次进行了深度优化&#xff0c;今天详细介绍已经在VSCode插件v2.8.0版本上线的 CodeGeeX InLine Chat功能&#xff0c;以…

IPO压力应变桥信号处理系列隔离放大器 差分信号隔离转换0-10mV/0-20mV/0-±10mV/0-±20mV转4-20mA/0-5V/0-10V

概述&#xff1a; IPO压力应变桥信号处理系列隔离放大器是一种将差分输入信号隔离放大、转换成按比例输出的直流信号混合集成厚模电路。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等行业。该模块内部嵌入了一个高效微功率的电源&#xff0c;向输入端和输出端…

海外多语言盲盒系统开发:加快盲盒企业出海

近几年&#xff0c;全球都进入到了潮玩文化发展期&#xff0c;在这种时代背景下&#xff0c;盲盒迅速发展&#xff0c;与消费者建立了深厚的情感连接&#xff0c;市场规模逐渐扩大。目前&#xff0c;我国盲盒企业纷纷布局海外市场&#xff0c;纵观海外庞大的发展空间&#xff0…

MathType7.6最新免费汉化版安装包下载地址

MathType是一款由Design Science公司开发的数学公式编辑器&#xff0c;被广泛用于编辑论文、书籍、报刊、数学试卷、演示文件等&#xff0c;是编辑数学资料的得力工具。以下是对MathType软件的详细介绍&#xff1a; 安装免费版MathType和mathtype7.4产品密钥 MTWE691-011524-9…

基于docker安装flink

文章目录 环境准备Flinkdocker-compose方式二进制部署 KafkaMysql Flink 执行 SQL命令进入SQL客户端CLI执行SQL查询表格模式变更日志模式Tableau模式窗口计算 窗口计算滚动窗口demo滑动窗口 踩坑 环境准备 Flink docker-compose方式 version: "3" services:jobman…

乡村振兴与城乡融合发展:加强城乡间经济、文化、社会等方面的交流与合作,推动城乡一体化发展,实现美丽乡村共荣

目录 一、引言 二、乡村振兴与城乡融合发展的意义 三、城乡交流合作的现状与挑战 &#xff08;一&#xff09;现状 &#xff08;二&#xff09;挑战 四、加强城乡交流合作的策略与路径 &#xff08;一&#xff09;完善城乡交流合作机制 &#xff08;二&#xff09;推动…

electron-vite工具打包后通过内置配置文件动态修改接口地址实现方法

系列文章目录 electronvitevue3 快速入门教程 文章目录 系列文章目录前言一、实现过程二、代码演示1.resources/env.json2.App.vue3.main/index.js4.request.js5.安装后修改 前言 使用electron-vite 工具开发项目打包完后每次要改接口地址都要重新打包&#xff0c;对于多环境…

后端的一些科普文章

后端开发一般有4个方面 后端开发流程 1阶段 域名认证 是每一个计算机在网络上有一个ip地址&#xff0c;可以通过这个地址来访问102.305.122.5&#xff08;举例&#xff09;&#xff0c; 但是这个公网ip地址&#xff0c;比较难记忆&#xff0c;所以大家使用域名来更好的记忆…

越秀城投·星汇城 | 看得再多,都不如实景现房更安心

对于大多数家庭而言&#xff0c;买房是人生大事。经历了前几年房企暴雷、楼盘停工烂尾的风波&#xff0c;“现房”成为买房人心中最安心的代名词。无需再等待&#xff0c;所见即所得。 越秀城投星汇城位于平度南部新城核芯片区&#xff0c;不仅享受区域发展的利好&#xff0c;…

ArcGIS10.2系列许可到期解决方案

本文手机码字&#xff0c;不排版了。 昨晚&#xff08;2021\12\17&#xff09;12点后&#xff0c;收到很多学员反馈 ArcGIS10.2系列软件突然崩溃。更有的&#xff0c;今天全单位崩溃。 ​ 提示许可15天内到期。之前大部分许可是到2021年1月1日的。 ​ 后续的版本许可都是永久的…
最新文章