首页

K-means聚类算法中的K如何确定？第1页

1

huangzhe 网友的相关建议:

常用的方法是elbow method（手肘法则）^[1]。选不同的k值，例如从1-9，然后画出每一个k值的“距离之和”和k的关系图。

左轴可以是distortion

或者Inertia

distortion和inertia挺接近，都是衡量每个数据和最近中心点的距离之和，只是计算距离的方式不一样而已。

为什么要选个elbow点呢？毕竟在官方文档^[2]中，是这么说的

The K-means algorithm aims to choose centroids that minimise the inertia, or within-cluster sum-of-squares criterion:

难道不是error越小越好吗？

理论上是，但你想想什么时候error最小？就是n个数据点分成n个簇。这样做clustering失去了意义。

有时候会出现曲线转折不明显的情况，如下：

这时候除了用放大镜找Elbow，也可以用一些容易计算的方法来找最佳K值。

在文章《Understanding of Internal Clustering Validation Measures》^[3]，介绍了Clustering的11种选择最佳值的方法。例如下图方法4-11的optimal value不是min就是max，不用再选elbow。

参考

^Elbow Method for optimal value of k in KMeans https://www.geeksforgeeks.org/elbow-method-for-optimal-value-of-k-in-kmeans/
^2.3. Clustering¶ https://scikit-learn.org/stable/modules/clustering.html
^Understanding of Internal Clustering Validation Measures http://datamining.rutgers.edu/publication/internalmeasures.pdf

K-means聚类算法中的K如何确定？的其他答案点击这里

1

相关话题

  什么是主动学习（Active Learning, AL）？
  有没有值得推荐的随机森林 Random Forest教材？
  为什么谈论深度学习工具时，很少有人讨论matlab的神经网络工具包？
  为什么说深度学习没有理论基础?
  主题模型(topic model)到底还有没有用，该怎么用？
  主题模型(topic model)到底还有没有用，该怎么用？
  如何评价余凯在朋友圈发表呼吁大家用 caffe、mxnet 等框架，避免使用 TensorFlow？
  2021年了，如何评价微软亚研提出的对偶学习（Dual Learning）？
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」？
  为什么nlp没有像cv四小龙一样的创业公司？

前一个讨论

机器学习小白来提问：关于联邦学习FedAVG和FedSGD的问题？

下一个讨论

写CUDA到底难在哪？

相关的话题

  有哪些LSTM(Long Short Term Memory)和RNN(Recurrent)网络的教程？
  未来十年，AI 将可能与哪些产业结合应用？产生怎样的价值？
  人类大脑的聪慧程度以 IQ 为标准，那么人工智能的水平用什么指标来衡量呢？
  K-means聚类算法中的K如何确定？
  如何评价第一局比赛 AlphaGo 战胜李世石？
  Python 如何画出漂亮的地图？
  对于多指标评价，BP神经网络评价和TOPSIS有什么区别呢？
  主动学习（Active Learning）近几年的研究有哪些进展，现在有哪些代表性成果？
  如何评价 DeepMind 在北京时间 19 年 1 月 25 日 2 点的《星际争霸 2》项目演示？
  在机器学习中，L2正则化为什么能够缓过拟合？
  主动学习(Active learning)算法的原理是什么，有哪些比较具体的应用？
  把某人的 DNA 序列作为输入，正面照片作为输出，丢到深度神经网络里面学习，可行吗？
  是不是机器学习的框架都偏向 Python ？如果是，为什么？
  神经网络模型压缩好就业吗?
  相比于时下流行的机器学习方法（联接主义），传统的人工智能方法（符号主义）有什么独一无二的优势？
  全连接层的作用是什么？
  为什么都说神经网络是个黑箱？
  在机器学习中，L2正则化为什么能够缓过拟合？
  让人工智能去下路边街头的象棋残局会赢吗？
  人工智能相关的岗位薪酬状况如何？
  正负样本极不平衡的问题？
  人工智能领域有哪些精妙的数学原理？
  如何看待斯坦福博士生2prime陆一平关于新冠起源的一系列言论？
  如何看待KDD'21的文章，异质图神经网络的效果不如简单的GCN、GAT？
  有哪些深度学习效果不如传统方法的经典案例？
  已有大量编程基础，如何速成python用于学习机器学习？
  如何评价微软亚洲研究院提出的LightRNN？
  关于材料计算，模拟，仿真什么区别?
  GAN的生成器是怎么产生图片的？
  为什么说深度学习没有理论基础?

© 2025-06-01 - tinynew.org. All Rights Reserved.
© 2025-06-01 - tinynew.org. 保留所有权利