温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

如何分析K-means Clustering

发布时间:2022-01-14 16:08:07 来源:亿速云 阅读:125 作者:柒染 栏目:云计算

如何分析K-means Clustering ,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

一:算法

    K-means 算法是机器学习 聚类算法中很常用,也是最基本的一种算法。聚类算法属于无监督学习算法。算法的步骤分为以下两步:1,根据分组大小K的值,找出K个中心点,而这时候其他点也根据距离中心点的距离划分给这个中心点。2,找出每个cluster最优的中心点,重新分配点,并迭代。

二:Spark MLlib

    Spark MLlib 提供了K-means算法的实现。

  1. 数据来源

    数据来源于KDD CUP网站,这些数据是网络连接的数据,下载   

找到data -> kddcup.data.zip  并下载。

数据每行格式如下:

0,tcp,http,SF,215,45076,
    0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,
    0.00,0.00,0.00,0.00,1.00,0.00,0.00,0,0,0.00,
    0.00,0.00,0.00,0.00,0.00,0.00,0.00,normal.

除了最后一个为label外,其余的都是features。label可能并不准确,这些label仅仅标示能发现的异常,但是k-means却能找到未知的异常。

 2.读取数据

    val rawDataPath = "Your kddcup.data.txt Path"
    val rawData = sc.textFile(rawDataPath)

    val labelsAndData = rawData.flatMap { line =>
      val buffer = line.split(',').toBuffer
      if (buffer.length == 42) {
        buffer.remove(1, 3)
        val label = buffer.remove(buffer.length - 1)
        val vector = Vectors.dense(buffer.map(_.toDouble).toArray)
        Some(label, vector)
      } else {
        None
      }
    }

数据除掉了第2,3,4列,最后一列数据。

 3. K-Means算法

     val kmeans = new KMeans()
      kmeans.setK(k)   //默认的K为2
      kmeans.setRuns(10) //找寻中心点运行次数
      kmeans.setEpsilon(1.0e-6) //找寻中心点每次变化距离,越小越远
      val model = kmeans.run(data)

使用生成的model并聚类

val clusterLabelCount = labelsAndData.map { case (label,datum) =>
    val cluster = model.predict(datum)
    (cluster,label)					
}.countByValue
					
clusterLabelCount.toSeq.sorted.foreach {case ((cluster,label),count) =>
println(f"$cluster%1s$label%18s$count%8s")
}

4.如何选择K

K的选择是个问题,正常说来,K值越大,聚类的效果越好。想象下,如果每个点都是单独的一个类。。

另外,我们可以使用其他点距离中心点的距离来查看聚类的效果:

    def distance(a: Vector, b: Vector) = {
      math.sqrt(a.toArray.zip(b.toArray).map(p => p._1 - p._2).map(p => p*p).sum)
    }

    def distToCentroid(datum: Vector, model: KMeansModel) = {
      val cluster = model.predict(datum)
      val centroid = model.clusterCenters(cluster)
      distance(centroid, datum)
    }

    def clusteringScore(data: RDD[Vector], k: Int) = {
      val kmeans = new KMeans()
      kmeans.setK(k)
      kmeans.setRuns(10)
      kmeans.setEpsilon(1.0e-6)
      val model = kmeans.run(data)
      data.map(datum => distToCentroid(datum, model)).mean()
    }

    (30 to 150 by 10 ).map(k => clusteringScore(data,k)).foreach(println)

 有了评估,我们可以依次查看K的大小对聚类的影响。

关于如何分析K-means Clustering 问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI